说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210344695.X (22)申请日 2022.03.31 (71)申请人 胜斗士 (上海) 科技 技术发展有限公 司 地址 201204 上海市浦东 新区牡丹路60号 10-11层 (72)发明人 田明福 许昆 杜蔚武 张旻  黄琴 杨俊杰 谢亚雄 温珂伟  (74)专利代理 机构 北京市金杜律师事务所 11256 专利代理师 张平 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/295(2020.01)G06F 40/30(2020.01) G06Q 10/06(2012.01) (54)发明名称 基于新闻文本进 行企业风险评估的方法、 计 算设备和介质 (57)摘要 本公开提供了一种基于新闻文本进行企业 风险评估的方法、 计算设备和计算机可读存储介 质。 该方法包括: 确定所述新闻文本是否满足预 定条件; 以及响应于确定所述新闻文本满足所述 预定条件, 确定所述企业存在舆情风险, 其中确 定所述新闻文本满足所述预定条件包括 以下中 的至少两项: 确定所述新闻文本所对应的舆情事 件的事件风险值大于风险阈值; 确定所述新闻文 本的情感极性低于情感阈值; 确定所述新闻文本 的主题类别并且确定所确定的主题类别属于特 定风险主题 集合; 以及识别所述新闻文本中的提 及实体并且确定所述提及实体命中所述企业的 企业知识图谱。 权利要求书5页 说明书21页 附图15页 CN 115017303 A 2022.09.06 CN 115017303 A 1.一种基于新闻文本进行企业 风险评估的方法, 包括: 确定所述 新闻文本是否满足预定条件; 以及 响应于确定所述新闻文本满足所述预定条件, 确定所述企业存在舆情风险, 其中确定 所述新闻文本满足所述预定条件 包括以下中的至少两项: 确定所述 新闻文本所对应的舆情事 件的事件风险值大于风险阈值; 确定所述 新闻文本的情感极性低于情感阈值; 确定所述新闻文本的主题类别并且确定所确定的主题类别属于特定风险主题集合; 以 及 识别所述新闻文本中的提及实体并且确定所述提及实体命中所述企业的企业知识图 谱。 2.如权利要求1所述的方法, 其中确定所述新闻文本所对应的舆情事件的事件风险值 包括: 建立舆情事件模型以至少识别事件类型、 与每种 事件类型相对应的事件触发词和事件 元素; 利用所述舆情事件模型从所述新闻文本 中识别舆情事件, 所述舆情事件至少包括所述 舆情事件的触发词和事 件元素; 以及 利用事件风险模型确定所述舆情事 件的事件风险值。 3.如权利要求2所述的方法, 其中利用所述舆情事件模型从所述新闻文本中识别舆情 事件包括: 确定所述新闻文本的事件表示方式, 其中所述事件表示方式包括标题式事件表示、 中 心事件表示、 事 件抽取表示和事 件语义表示中的任一种; 基于所述事件表示方式, 利用所述舆情事件模型从所述新闻文本 中识别出所述舆情事 件; 以及 为所识别出的舆情事 件生成短文本 舆情事件表示。 4.如权利要求2所述的方法, 其中利用事件风险模型确定所述舆情事件的事件风险值 包括: 基于所述舆情事件的事件类型、 事件触发词和事件元素构建所述舆情事件的特征词集 合; 确定所述特 征词集合的平均词向量; 将所述平均词向量与所述事件风险模型的参数中的多个平均词向量进行比较以确定 最接近的平均词向量; 以及 基于所述 最接近的平均词向量确定所述舆情事 件的风险值。 5.如权利要求2所述的方法, 其中所述舆情事件模型还用于识别指示所述事件元素的 角色的事 件元素角色和/或包 含事件触发词和事 件元素的事件描述句。 6.如权利要求2所述的方法, 还 包括: 构建与所述企业相关联的历史事件库, 所述历史事件库包含存在感兴趣的风险类型的 多个历史事 件, 每个历史事 件基于所述舆情事 件模型构建; 对所述历史事件库中的每个历史事件标注风险值, 所述风险值指示所述历史事件的风 险程度;权 利 要 求 书 1/5 页 2 CN 115017303 A 2利用带有风险值的历史事件对所述事件风险模型进行训练以产生经训练的事件风险 模型; 以及 将所述舆情事 件输入经训练的事 件风险模型以确定所述舆情事 件的事件风险值。 7.如权利要求1所述的方法, 其中确定所述 新闻文本的情感极性低于情感阈值包括: 利用情感分类模型确定所述新闻文本的情感极性, 所述情感极性指示正面情感、 负面 情感还是中性情感; 以及 将所述新闻文本的情感极性与所述情感阈值进行比较以确定所述新闻文本的情感极 性低于情感阈值。 8.如权利要求7所述的方法, 其中利用情感分类模型确定所述新闻文本的情感极性包 括: 对所述新闻文本所包 含的文本数据进行 过滤; 对经过滤的文本数据进行分词, 并且将分词后的文本数据映射为文本标识序列, 其中 每个文本标识序列包括 一个或多个离 散编码向量; 将所生成的文本标识序列输入所述情感分类模型的嵌入层, 以将所述文本标识序列转 换成连续的嵌入向量; 在所述情感分类模型的编码层对所述嵌入层输出的嵌入向量进行编码以生成所述嵌 入向量的上 下文表示; 在所述情感分类模型的池化层利用注意力函数生成所述嵌入向量的句子级别特征向 量; 产生所述句子级别特征向量的质量概率分布, 所述质量概率分布指示所述新闻文本处 于不同情感极性的概 率; 以及 选择所述质量 概率分布中概 率最高的情感极性作为所述 新闻文本的情感极性。 9.如权利要求7 所述的方法, 还 包括: 构建与所述企业相关联的情感训练文本集合, 所述情 感训练文本集合包含多个情 感训 练文本, 每 个情感训练文本包括与所述企业相关联的新闻文本; 对所述情感训练文本集 合中的每 个情感训练文本标注情感极性; 以及 利用所述情感训练文本和所标注的情感极性对情感分类模型进行训练以产生经训练 的情感分类模型。 10.如权利要求9所述的方法, 其中对所述情感训练文本集合中的每个情感训练文本标 注情感极性包括: 在所述情感训练文本中查找风险词 词典中的风险词; 如果在所述情感训练文本 中查找到风险词, 基于依存句法规则确定所述风险词关联的 语义; 以及 基于所述 风险词关联的语义对所述情感训练文本进行 标注。 11.如权利要求1所述的方法, 其中确定所述新闻文本的主题类别包括利用主题分类模 型确定所述新闻文本的主题类别, 所述主题分类模型包括主题抽取层和主题 聚类层, 并且 利用主题分类模型确定所述 新闻文本的主题类别包括: 在所述主题抽取层, 利用 双词话题模型, 确定所述新闻文本的标题在预定主题集合中 的概率分布以及在所述预定主题集合中的每个主题中, 所述标题中的各个单词的概率分权 利 要 求 书 2/5 页 3 CN 115017303 A 3

.PDF文档 专利 基于新闻文本进行企业风险评估的方法、计算设备和介质

文档预览
中文文档 42 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共42页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于新闻文本进行企业风险评估的方法、计算设备和介质 第 1 页 专利 基于新闻文本进行企业风险评估的方法、计算设备和介质 第 2 页 专利 基于新闻文本进行企业风险评估的方法、计算设备和介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:57:15上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。