说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210205282.3 (22)申请日 2022.03.02 (71)申请人 阿里巴巴 (中国) 有限公司 地址 310051 浙江省杭州市滨江区长河街 道网商路69 9号4号楼5楼5 08室 申请人 南洋理工大 学 (72)发明人 刘林林 李昕 何瑞丹 邴立东 司罗 沙菲克.爵蒂 (74)专利代理 机构 北京合智同创知识产权代理 有限公司 1 1545 专利代理师 李杰 张美洁 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/295(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 文本序列生成方法、 预训练方法、 存储介质 及程序产品 (57)摘要 本申请提供了一种文本序列生 成方法、 语 言 模型的预训练方法、 存储介质及程序产品, 文本 序列生成方法, 包括: 获取知识图谱中的逻辑子 图, 其中, 所述逻辑子图为三角子图或者所述逻 辑子图由至少两个三角子图拼接, 所述三角子图 中包括三个实体且任意两个实体之间具有实体 关系; 确定所述逻辑子图中包括的多个实体对, 其中, 所述实体对中的元素包括两个实体及其之 间的实体关系; 将多个所述实体对分别进行序列 化处理, 得到包括两个实体及其之间的实体关系 对应描述文本的多个短句; 根据多个所述短句生 成与所述逻辑子图对应的文本序列, 所述文本序 列用于对语言模型进行逻辑推理的预训练。 权利要求书2页 说明书11页 附图5页 CN 114817554 A 2022.07.29 CN 114817554 A 1.一种文本序列生成方法, 包括: 获取知识图谱中的逻辑子 图, 其中, 所述逻辑子 图为三角子 图或者所述逻辑子 图由至 少两个三角子图拼接, 所述 三角子图中包括 三个实体且 任意两个实体之间具有实体关系; 确定所述逻辑子 图中包括的多个实体对, 其中, 所述实体对中的元素包括两个实体及 其之间的实体关系; 将多个所述实体对分别进行序列化处理, 得到包括两个实体及其之间的实体关系对应 描述文本的多个短句; 根据多个所述短句生成与 所述逻辑子图对应的文本序列, 所述文本序列用于对语言模 型进行逻辑推理的预训练。 2.根据权利要求1所述的方法, 其中, 所述获取知识图谱中的逻辑子图, 包括: 针对所述知识图谱中的目标实体, 确定与 所述目标实体之间具有实体关系 多个候选实 体; 从所述多个候选实体中确定出具有实体关系的至少一组候选实体, 确定由一组候选实 体以及所述目标实体组成的三角子图; 根据所述 三角子图确定所述逻辑子图。 3.根据权利要求2所述的方法, 其中, 若所述逻辑子 图由至少两个三角子 图拼接, 则所 述根据所述 三角子图确定所述逻辑子图, 包括: 确定所述 三角子图对应的候选 逻辑子图; 针对所述候选逻辑子图中的第 一实体, 从所述知识图谱中确定与所述第 一实体之间具 有实体关系的第二实体, 其中, 所述第二实体为所述 候选逻辑子图之外的实体; 确定所述第二实体是否与所述候选逻辑子图中除所述第一实体之外的实体之间存在 实体关系; 若存在, 则根据所述第二实体更新所述候选逻辑子 图, 以将所述第二实体增加至所述 候选逻辑子图中, 得到所述逻辑子图。 4.根据权利要求3所述的方法, 其中, 所述确定所述第 二实体是否与 所述候选逻辑子图 中除所述第一实体之外的实体之间存在实体关系, 包括: 从所述候选逻辑子图中确定与所述第一实体间存在实体关系的第三实体; 确定所述第二实体是否与所述第三实体之间存在实体关系。 5.根据权利要求1所述的方法, 其中, 若所述逻辑子 图由至少两个三角子 图拼接, 则所 述逻辑子图中的相邻两个三角子图之间共边。 6.根据权利要求1所述的方法, 其中, 将多个所述实体对分别进行序列化处理, 得到包 括两个实体及其之间的实体关系对应描述文本的多个短句, 包括: 针对任意实体对, 使用掩码拼接所述实体对中的两个实体及其实体关系 对应的描述文 本, 得到所述实体对所对应的短句。 7.一种语言模型的预训练方法, 包括: 获取知识图谱中的逻辑子 图, 其中, 所述逻辑子 图为三角子 图或者所述逻辑子 图由至 少两个三角子图拼接, 所述 三角子图中包括 三个实体且 任意两个实体之间具有实体关系; 确定所述逻辑子 图中包括的多个实体对, 其中, 所述实体对中的元素包括两个实体及 其之间的实体关系;权 利 要 求 书 1/2 页 2 CN 114817554 A 2将多个所述实体对分别进行序列化处理, 得到包括两个实体及其之间的实体关系对应 描述文本的多个短句; 根据多个所述短句生成与所述逻辑子图对应的文本序列; 将所述文本序列中与部分所述实体关系对应的描述文本替换为掩码, 得到样本文本序 列; 将所述样本文本序列输入至语言模型, 通过所述语言模型根据输入的样本文本序列对 掩码对应的文本进行逻辑推理, 得到所述掩码对应的预测文本; 根据所述语言模型输出的预测文本与被替换为掩码的文本之间的差异, 调 整所述语言 模型, 以对所述语言模型进行实体关系逻辑推理的预训练。 8.根据权利要求7所述的方法, 其中, 若所述逻辑子 图由至少两个三角子 图拼接, 则所 述方法还 包括: 将所述文本序列中的部分短句替换为掩码, 得到所述样本文本序列, 其中, 所述文本序 列中被替换为掩码的短句数量与所述逻辑子图中的三角子图的数量成正比; 将所述样本文本序列输入至语言模型, 通过所述语言模型根据输入的样本文本序列对 掩码对应的文本进行逻辑推理, 得到所述掩码对应的预测文本; 将所述语言模型输出的预测文本与被替换为掩码的短句之间的差异。 9.根据权利要求8所述的方法, 其中, 所述将所述文本序列中的部分短句替换为掩码, 得到所述样本文本序列, 包括: 针对所述文本序列中的部分短句, 将所述短句中与实体对应的描述文本替换为掩码, 保留所述短句中与实体关系对应的描述文本, 得到所述样本文本序列。 10.根据权利要求7 所述的方法, 其中, 所述方法还 包括: 采用所述文本序列, 进行基于逻辑推理的预训练任务与基于多语言知识的预训练任 务、 基于完形填空的预训练任务两个任务中的至少之一进行联合训练, 得到训练的语言模 型。 11.一种计算机存储介质, 其上存储有计算机程序, 该程序被处理器执行时实现如权利 要求1‑6中任一所述的文本序列生 成方法或者如权利要求7 ‑10中任一所述的语 言模型的预 训练方法。 12.一种计算机程序产品, 包括计算机指令, 所述计算机指令指示计算设备执行如权利 要求1‑6中任一所述的文本序列生 成方法或者如权利要求7 ‑10中任一所述的语 言模型的预 训练方法对应的操作。权 利 要 求 书 2/2 页 3 CN 114817554 A 3
专利 文本序列生成方法、预训练方法、存储介质及程序产品
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 08:58:49
上传分享
举报
下载
原文档
(780.9 KB)
分享
友情链接
DB6501-T 053-2023 智慧水务信息应用系统 乌鲁木齐市.pdf
T-WAPIA 045.2—2021 信息技术 系统间远程通信和信息交换 原子密钥建立与实体鉴别 第2部分:轻量级原子密钥建立与实体鉴别.pdf
GJB 907A-2006 产品质量评审.pdf
JY-T 0581-2020 透射电子显微镜分析方法通则.pdf
DL-T 5083-2019 水电水利工程预应力锚固施工规范.pdf
T ZJHIA XX-2014 医疗健康数据分类分级规范.pdf
GB-T 30294-2013 聚丁二酸丁二酯.pdf
GB-Z 22553-2010 利用重复性、再现性和正确度的估计值评估测量不确定度的指南.pdf
GB-T 5905.1-2023 起重机 检验与试验规范 第1部分:通则.pdf
T-JCCIA 004—2022 医疗行业数据中范心网络设备调试规.pdf
DB11-T 1289-2015 信息技术 灾难恢复系统成本效益评估规范 北京市.pdf
GB-T 29862-2013 纺织品 纤维含量的标识.pdf
东吴计算机 信创产业发展研究.pdf
GB-T 29766-2021 信息安全技术 网站数据恢复产品技术要求与测试评价方法.pdf
GB-T 10357.7-2013 家具力学性能试验 第7部分:桌类稳定性.pdf
中国移动研究院 5G基站节能技术白皮书 2020.pdf
GB-T 20239-2023 体育馆用木质地板.pdf
T-SZSA 015—2017 COB LED 光源封装产品技术规范.pdf
GB 7231-2003 工业管道的基本识别色、识别符号和安全标识.pdf
绿盟 软件供应链安全技术白皮书.pdf
交流群
-->
1
/
3
19
评价文档
赞助2元 点击下载(780.9 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。