说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210053719.6 (22)申请日 2022.01.18 (71)申请人 深圳市证通电子股份有限公司 地址 518000 广东省深圳市光明区玉塘街 道田寮社区同观大道3号证通电子产 业园二期-101 申请人 湖南大学 (72)发明人 唐卓 向婷 曹嵘晖 纪军刚  尹旦 宋柏森 朱纯霞 赵环  (74)专利代理 机构 北京中政联科专利代理事务 所(普通合伙) 11489 专利代理师 陈超 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/211(2020.01) (54)发明名称 基于无监督句法分析的知识图谱构建方法、 装置及设备 (57)摘要 本发明涉及一种基于无监督句法分析构建 知识图谱的方法、 装置及设备, 通过获取文本数 据集, 并对所述文本数据集进行预处理, 对预处 理后的数据集进行编码, 得到句法树中每个短语 的向量表示, 计算所述短语向量表示的得分, 将 得分最高的句法树进行解码, 并作为句法分析的 结果, 根据所述得分最高的句法树构建知识图 谱; 解决了现有技术中采用启发 式规则构建知识 图谱工作量大, 可 以移植性差的问题, 实现了基 于无监督句法分析来构件知识图谱, 成本较低且 准确性高。 权利要求书2页 说明书9页 附图3页 CN 114661912 A 2022.06.24 CN 114661912 A 1.一种基于无监 督句法分析的知识图谱构建方法, 其特 征在于, 所述方法包括: 获取文本数据集, 并对所述文本数据集进行 预处理; 对预处理后的数据集进行编码, 得到句法树中每 个短语的向量表示; 计算所述短语向量表示的得分; 将得分最高的句法树进行解码, 并作为句法分析的结果; 根据所述得分最高的句法树构建知识图谱。 2.根据权利要求1所述的基于无监督句法分析的知识图谱构建方法, 其特征在于, 所述 获取文本数据集, 并对所述文本数据集进行 预处理包括: 将文本数据集 转换为字符串, 并将所述字符串读入缓冲区中; 对转换为所述字符串的所述文本数据集中的句子进行分词; 将每个所述句子初步编码转 化为向量, 并存 储在元组中。 3.根据权利要求1所述的基于无监督句法分析的知识图谱构建方法, 其特征在于, 所述 对预处理后的数据集进行编码, 得到句法树中每 个短语的向量表示包括: 根据训练语料中的上 下文得到预处 理后的所述文本数据集中的句子的文本向量表示; 根据所述预处理后的所述文本数据集中的句子的文本向量表示, 获得句法树中每个短 语的向量表示。 4.根据权利要求3所述的基于无监督句法分析的知识图谱构建方法, 其特征在于, 所述 根据训练语料中的上 下文得到预处 理后的所述文本数据集中的句子的文本向量表示包括: 将所述预处理后的所述文本数据集中的句子的单词序列输入编码器, 得到每个单词的 文本向量表示; 所述根据 所述预处理后的所述文本数据集中句子的文本向量表示, 获得句法树中每个 短语的向量表示包括: 根据每个单词的文本向量表示, 获得 所述句法树中每 个短语的向量表示。 5.根据权利要求1所述的基于无监督句法分析的知识图谱构建方法, 其特征在于, 所述 计算所述短语向量表示的得分包括: 获得所述短语的非 终结符的得分和跨度得分; 将非终结符的得分和跨度得分确定为所述短语向量表示的得分。 6.根据权利要求1所述的基于无监督句法分析的知识图谱构建方法, 其特征在于, 所述 将得分最高的句法树进行解码包括: 对于一个句法距离序列, 找出序列中最大的元 素di; 将下标小于i的句子构成左子树, 大于等于i的句子构成右子树; 对于所述左子树和所述右子树进行递归解码。 7.根据权利要求1所述的基于无监督句法分析的知识图谱构建方法, 其特征在于, 所述 根据所述得分最高的句法树构建知识图谱 包括: 根据所述句法树, 结合词性特 征, 确定存在关联关系的两个实体; 根据所述句法树确定 两个实体之间的关联关系; 对所述关联关系进行 过滤, 得到不包 含重复关联关系的实体关系。 8.一种基于无监 督句法分析的知识图谱构建装置, 其特 征在于, 所述装置包括: 数据获取模块, 获取文本数据集, 并对所述文本数据集进行 预处理;权 利 要 求 书 1/2 页 2 CN 114661912 A 2数据编码模块, 对预处 理后的数据集进行编码, 得到句法树中每 个短语的向量表示; 得分计算模块, 计算所述短语向量表示的得分; 解码模块, 将得分最高的句法树进行解码, 并作为句法分析的结果; 图谱构建模块, 根据所述得分最高的句法树构建知识图谱。 9.一种计算机可读存 储介质, 其上存 储有计算机指令, 其特 征在于, 该指令被处理器执行时实现权利要求1 ‑7任一项所述的基于无监督句法分析的知识图 谱构建方法的步骤。 10.一种基于无监督句法分析的知识图谱构建设备, 包括存储器、 处理器及存储在存储 器上并可在处 理器上运行的计算机程序, 其特 征在于, 所述处理器执行所述程序时实现权利要求1 ‑7任一项所述的基于无监督句法分析的知 识图谱构建方法的步骤。权 利 要 求 书 2/2 页 3 CN 114661912 A 3

.PDF文档 专利 基于无监督句法分析的知识图谱构建方法、装置及设备

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于无监督句法分析的知识图谱构建方法、装置及设备 第 1 页 专利 基于无监督句法分析的知识图谱构建方法、装置及设备 第 2 页 专利 基于无监督句法分析的知识图谱构建方法、装置及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:57:15上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。