团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221010895 5.3 (22)申请日 2022.01.28 (71)申请人 山东师范大学 地址 250014 山东省济南市历下区文化 东 路88号 (72)发明人 闫伟 季增彦 张亮 卜凡洋  隋远  (74)专利代理 机构 济南圣达知识产权代理有限 公司 372 21 专利代理师 黄海丽 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 音乐知识图谱半自动构建方法及系统 (57)摘要 本发明公开了音乐知识图谱半自动构建方 法及系统, 包括: 对中文音乐领域数据集的命名 实体进行识别; 将识别出来的命名实体, 转换成 中文音乐领域的三元组; 基于中文音乐领域的三 元组, 构建中文音乐领域的知识图谱。 以命名实 体识别技术为核心, 采用多文本的CNN ‑BiLSTM‑ Attention模型为核心构建了面向中文音 乐领域 的命名实体识别系统。 在知识抽取环节, 以实体 识别的结果与关系抽取的结果构建出知识图谱 上的“节点”与“边”, 最终构建面向音乐领域的中 文知识图谱半自动构建系统。 爬取原始数据后经 过处理后以带扩展属性的三元 组形式保存, 实现 半自动的知识图谱构建。 权利要求书2页 说明书12页 附图2页 CN 114547330 A 2022.05.27 CN 114547330 A 1.音乐知识图谱半自动构建方法, 其特 征是, 包括: 对中文音乐领域数据集的命名实体进行识别; 将识别出来的命名实体, 转换成中文 音乐领域的三元组; 基于中文 音乐领域的三元组, 构建中文 音乐领域的知识图谱。 2.如权利要求1所述的音乐知识图谱半自动构建方法, 其特 征是, 所述方法还 包括: 基于中文 音乐领域的知识图谱, 实现音乐数据的个性 化推荐或者音乐数据的搜索。 3.如权利要求1所述的音乐知识图谱半自动构建方法, 其特征是, 对中文音乐领域数据 集的命名实体进行识别; 具体包括: 采用训练后的神经网络模型, 对中文 音乐领域数据集的命名实体进行识别; 神经网络模型, 具体网络结构包括: 依次连接的卷积神经网络CNN、 双向长短词记忆模型BiLSTM、 自注意力机制层Self ‑ Attention和CRF层; 所述训练后的神经网络模型, 具体训练过程包括: 构建训练集; 其中, 训练集 为已知命名实体的语料库; 将训练集输入到神经网络模型中, 对 模型进行训练, 得到训练后的神经网络模型。 4.如权利要求3所述的音乐知识图谱半自动构建方法, 其特征是, 所述采用训练后的神 经网络模型, 对中文 音乐领域数据集的命名实体进行识别; 具体工作原理包括: 将中文音乐领域语料库中的每 个对话, 转换成向量矩阵; 使用卷积神经网络 CNN, 对向量矩阵进行 特征提取, 得到每 个对话的本质特 征; 将每个对话的本质特征, 输入到双向长短词记忆模型BiLSTM中, 输出包含上下文特征 表示的单词特 征; 将包含上下文表示的单词特 征, 输入到自注意力机制层, 筛 选出关键实体; 将筛选出的关键实体, 输入到 CRF层, 得到实体标签。 5.如权利要求4所述的音乐知识图谱半自动构建方法, 其特征是, 将中文音乐领域语料 库中的每 个对话, 转换成向量矩阵; 具体包括: 删除每个对话的停用词; 将每个对话中断开的句子连接 到一起; 删除每个对话中句子之间的空格; 将每个对话中句子控制在设定 长度; 对话中的每 个句子对应一个索引向量; 对话中每 个句子中的每 个单词, 对应单词向量; 得到每个对话对应的向量矩阵。 6.如权利要求1所述的音乐知识图谱半自动构建方法, 其特征是, 将识别出来的命名实 体, 转换成中文 音乐领域的三元组; 具体包括: 根据预定义的关系模板, 将识别出来的命名实体, 将 实体与实体之间用关系连接起来, 转换成中文 音乐领域的三元组; 所述预定义的关系模板, 包括: 歌曲名称与 作者的关系, 歌曲名称与歌词的关系; 将识别出来的命名实体, 转换成中文 音乐领域的三元组, 具体包括: 提取出每句话中的实体, 所述实体, 包括: 歌手、 歌曲和歌词; 如果实体之间的关系在预权 利 要 求 书 1/2 页 2 CN 114547330 A 2定义关系库中被定义, 则最终返回三元组集 合[第一实体, 关系, 第二实体]。 7.如权利要求1所述的音乐知识图谱半自动构建方法, 其特 征是, 基于中文 音乐领域的三元组, 构建中文 音乐领域的知识图谱; 具体包括: 将音乐三元组放到知识图谱生成算法中, 自动形成知识图谱, 并且链接到 图形数据库 Neo4j, 生成为可视化的知识图谱; 在图形数据库Neo4j中, 遍历三元组集合中每一个三元组, 以第一实体与第二实体, 利 用cypher语言去掉重复的创建两个节点, 并以第一实体与第二实体的关系作为关联利用 cypher语言连接 两个节点; 所构建的知识图谱将存 储在Neo4j数据库中。 8.音乐知识图谱半自动构建系统, 其特 征是, 包括: 实体识别模块, 其被 配置为: 对中文 音乐领域数据集的命名实体进行识别; 三元组转换模块, 其被配置为: 将识别出来的命名实体, 转换成中文音乐领域的三元 组; 图谱构建模块, 其被配置为: 基于 中文音乐领域的三元组, 构建中文音乐领域的知识图 谱。 9.一种电子设备, 其特 征是, 包括: 存储器, 用于非暂时性存 储计算机可读指令; 以及 处理器, 用于运行 所述计算机可读指令, 其中, 所述计算机可读指令被所述处理器运行时, 执行上述权利要求1 ‑7任一项所述的 方法。 10.一种存储介质, 其特征是, 非暂时性地存储计算机可读指令, 其中, 当所述非暂时性 计算机可读指令由计算机执 行时, 执行权利要求1 ‑7任一项所述方法的指令 。权 利 要 求 书 2/2 页 3 CN 114547330 A 3

.PDF文档 专利 音乐知识图谱半自动构建方法及系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 音乐知识图谱半自动构建方法及系统 第 1 页 专利 音乐知识图谱半自动构建方法及系统 第 2 页 专利 音乐知识图谱半自动构建方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:00:37上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。