说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210139697.5 (22)申请日 2022.02.15 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 孙梓淇 张智  (74)专利代理 机构 深圳市隆天联鼎知识产权代 理有限公司 4 4232 专利代理师 孙强 (51)Int.Cl. G06F 40/258(2020.01) G06F 40/284(2020.01) G06F 16/36(2019.01) (54)发明名称 标题生成方法、 装置、 设备及 介质 (57)摘要 本申请涉及人工智能技术领域, 具体公开了 一种标题 生成方法、 装置、 设备及介质, 所述标题 生成方法通过提取原始文章中的关键词, 得到关 键词集合; 将关键词集合中的关键词和预设知识 图谱的图谱节 点进行匹配, 根据匹配成功的图谱 节点得到 备选词集合; 获取备选词集合中每个备 选词的当前热度, 得到每个备选词的第一热度 值, 以及根据每个备选词的第一热度值的变化趋 势, 得到每个备选词的第二热度值; 根据第一热 度值以及第二热度值对每个备选词进行排序, 得 到备选词序列; 根据备选词序列获取原始文章中 各个词的注 意力特征, 根据注 意力特征生成标题 信息。 使得生成标题信息在能够反映出原始文本 的核心内容的前提下, 还能够保证生成的标题满 足用户的偏好。 权利要求书2页 说明书13页 附图3页 CN 114548083 A 2022.05.27 CN 114548083 A 1.一种标题生成方法, 其特 征在于, 所述方法包括: 提取原始文章中的关键词, 得到关键词集 合; 将所述关键词集合中的关键词和预设知识图谱的图谱节点进行匹配, 根据匹配成功的 图谱节点得到备选词集 合; 获取所述备选词集合中每个备选词的当前热度, 得到所述每个备选词的第一热度值, 以及根据所述每 个备选词的第一热度值的变化趋势, 得到所述每 个备选词的第二热度值; 根据所述第 一热度值以及所述第 二热度值对所述每个备选词 进行排序, 得到备选词序 列; 根据所述备选词序列获取所述原始文章中各个词的注意力特征, 以根据 所述注意力特 征生成标题信息 。 2.根据权利要求1所述的方法, 其特征在于, 所述获取所述备选词集合中每个备选词的 当前热度, 得到所述每 个备选词的第一热度值, 包括: 统计第一预设时间段内所有用户的历史浏览记录, 得到所述每个备选词的全局热度 值; 以及统计第一预设时间段内目标用户的历史浏览记录, 得到所述每个备选词的目标热 度值; 根据所述每个备选词的全局热度值以及目标热度值, 得到所述每个备选词当前的第 一 热度值。 3.根据权利要求1所述的方法, 其特征在于, 所述根据所述每个备选词的第 一热度值的 变化趋势, 得到所述每 个备选词的第二热度值, 包括: 根据历史热度统计记录, 获取所述每个备选词在第二预设时间段内的多个第一热度 值; 其中, 每 个第一热度值中包 含有对应的时间信息; 根据所述多个第 一热度值的时间信 息, 计算相邻时间对应的第 一热度值之间的热度差 值; 根据所述热度差值以及 当前时间对应的第 一热度值, 得到所述每个备选词的第 二热度 值。 4.根据权利要求1至3任一项所述的方法, 其特征在于, 所述根据所述第一热度值以及 所述第二热度值对所述每 个备选词进行排序, 得到备选词序列, 包括: 根据第一预设权重参数对所述每个备选词的第 一热度值进行加权处理, 得到加权处理 后的第一热度加权值, 以及根据第二预设权重参数对所述每个备选词的第二热度值进 行加 权处理, 得到加权处 理后的第二热度加权值; 将所述第一热度加权值以及所述第 二热度加权值进行求和处理, 得到所述每个备选词 的综合热度值; 根据所述每个备选词的综合热度值对所述每个备选词进行排序, 得到所述备选词序 列。 5.根据权利要求1所述的方法, 其特征在于, 所述根据所述备选词序列获取所述原始文 章中各个词的注意力特 征, 包括: 根据所述原始文章中各个词的相对位置信 息, 得到所述原始文章中各个词的自注意力 系数, 以及根据所述 排序后的备选词, 得到所述原 始文章中各个词的重要系数; 根据所述原始文章中各个词的自注意力系数以及所述原始文章中各个词的重要系数,权 利 要 求 书 1/2 页 2 CN 114548083 A 2得到所述原 始文章中各个词的注意力特 征。 6.根据权利要求5所述的方法, 其特征在于, 所述根据所述原始文章中各个词的相对位 置信息, 得到所述原 始文章中各个词的自注意力系数, 包括: 将所述原始文章中各个词输入前向的自注意力网络, 得到所述原始文章中各个词的第 一自注意力向量; 将所述原始文章中各个词输入后向的自注意力网络, 得到所述原始文章中各个词的第 二自注意力向量; 将所述第一自注意力向量和所述第 二自注意力向量进行融合, 获得所述原始文章中各 个词的自注意力系数。 7.根据权利要求1所述的方法, 其特征在于, 所述原始文章包括原始正文信 息以及原始 标题信息, 所述 提取原始文章中的关键词, 得到关键词集 合, 包括: 对所述原始正文信息以及所述原始标题信息执行分词以及去停用词中的至少一种预 处理操作, 得到所述原始正文信息对应的正文词汇以及所述原始标题信息对应的标题关键 词; 获取所述正文词汇的词频逆文本频率值, 根据所述正文词汇的词频逆文本频率值对所 述正文词汇进行筛 选, 得到所述原 始正文信息对应的正文关键词; 对所述标题关键词以及所述 正文关键词进行拼接, 得到关键词集 合。 8.一种标题生成装置, 其特 征在于, 所述装置包括: 关键词提取模块, 用于提取原 始文章中的关键词, 得到关键词集 合; 知识图谱匹配模块, 用于将所述关键词集合中的关键词和预设知识图谱的图谱节点进 行匹配, 根据匹配成功的图谱节点得到备选词集 合; 热度计算模块, 用于获取所述备选词集合中每个备选词的当前热度, 得到所述每个备 选词的第一热度值, 以及根据所述每个备选词的第一热度值的变化趋势, 得到所述每个备 选词的第二热度值; 排序模块, 用于根据所述第一热度值以及所述第二热度值对所述每个备选词进行排 序, 得到备选词序列; 标题生成模块, 用于根据所述备选词序列获取所述原始文章中各个词的注意力特征, 以根据所述注意力特 征生成标题信息 。 9.一种计算机设备, 其特 征在于, 所述计算机设备包括存 储器和处 理器; 所述存储器, 用于存 储计算机程序; 所述处理器, 用于执行所述的计算机程序并在执行所述的计算机程序时实现如权利要 求1至7中任一项所述的标题生成方法。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程 序, 所述计算机程序被处理器执行时使 所述处理器实现如权利要求 1至7中任一项 所述的标 题生成方法。权 利 要 求 书 2/2 页 3 CN 114548083 A 3

.PDF文档 专利 标题生成方法、装置、设备及介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 标题生成方法、装置、设备及介质 第 1 页 专利 标题生成方法、装置、设备及介质 第 2 页 专利 标题生成方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:59:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。