说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210242285.4 (22)申请日 2022.03.11 (71)申请人 清华大学 地址 100084 北京市海淀区清华园 申请人 粤港澳大湾区数字经济 研究院 (福 田) (72)发明人 俞声 谢育涛 袁正 曾思航 夏俊 (74)专利代理 机构 深圳市君胜知识产权代理事 务所(普通 合伙) 44268 专利代理师 陈专 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) (54)发明名称 术语聚类方法、 系统、 智能终端及计算机可 读存储介质 (57)摘要 本发明公开了术语聚类方法、 系统、 智能终 端及计算机可读存储介质, 其中, 所述术语聚类 方法包括: 获取待聚类术语以及各上述待聚类术 语的嵌入表 示; 根据上述待聚类术语的嵌入表示 计算各上述待聚类术语之间的术语相似度, 其 中, 一个术语相似度体 现两个上述待聚类术语 之 间的语义的相似度; 以上述待聚类术语为顶点, 基于上述术语相似度获取至少一个目标聚类图, 其中, 上述目标聚类图为连通的无向图, 上述目 标聚类图的顶 点个数小于预设的最大术语数, 上 述目标聚类图中任意一条边连接的两个顶点之 间的术语相似度大于预设的相似度连接阈值; 根 据上述目标聚类图对上述待聚类术语进行聚类。 与现有技术相比, 本发明方案有利于提高术语聚 类的效率。 权利要求书2页 说明书12页 附图4页 CN 114741506 A 2022.07.12 CN 114741506 A 1.一种术语聚类方法, 其特 征在于, 所述 术语聚类方法包括: 获取待聚类术语以及各 所述待聚类术语的嵌入表示; 根据所述待聚类术语的嵌入表示计算各所述待聚类术语之间的术语相似度, 其中, 一 个术语相似度体现两个所述待聚类术语之间的语义的相似度; 以所述待聚类术语为顶点, 基于所述术语相似度获取至少一个目标 聚类图, 其中, 所述 目标聚类图为连通的无向图, 所述 目标聚类图的顶点个数小于预设的最大术语数, 所述 目 标聚类图中任意 一条边连接的两个顶点之间的术语相似度大于预设的相似度连接阈值; 根据所述目标聚类图对所述待聚类术语进行聚类。 2.根据权利要求1所述的术语聚类方法, 其特征在于, 所述获取待聚类术语以及各所述 待聚类术语的嵌入表示, 包括: 获取待聚类术语; 基于预设的模型将各 所述待聚类术语中的词映射 为向量; 根据各所述待聚类术语对应的向量获取各所述待聚类术语的嵌入表示, 其中, 所述嵌 入表示是所述待聚类术语对应的所有向量的平均值或所述待聚类术语中第一个词对应的 向量。 3.根据权利要求1所述的术语聚类方法, 其特征在于, 所述术语相似度 是两个所述待聚 类术语的嵌入表示之间夹角的余弦值。 4.根据权利要求1 ‑3任意一项所述的术语聚类方法, 其特征在于, 所述以所述待聚类术 语为顶点, 基于所述 术语相似度获取至少一个目标聚类图, 包括: 依次将每一个所述待聚类术语作为目标术语, 从所述目标术语对应的待筛选术语集合 中获取所述 目标术语对应的待连接术语, 其中, 所述待筛选术语集合中包括除所述 目标术 语以外的所有待聚类术语, 所述待连接术语与所述目标术语之 间的术语相似度大于所述相 似度连接阈值, 一个所述目标术语对应的所述待连接术语的数目不大于预设的相似术语数 目, 所述目标术语对应的第一术语相似度不小于第二术语相似度, 所述第一术语相似度是 所述目标术语与任意一个所述待连接术语的术语相似度, 所述第二术语相似度是所述目标 术语与除所述待连接术语以外的其它任意 一个待聚类术语的术语相似度; 将各所述目标术语与对应的所述待连接术语连接, 构建一个无向术语图; 获取所述无向术语图的所有连通分量, 基于所述连通分量获取 所述目标聚类图。 5.根据权利要求4所述的术语聚类方法, 其特征在于, 所述基于所述连通分量获取所述 目标聚类图, 包括: 根据所述连通分量的顶点数目将所有所述连通分量划分为目标连通分量和待处理连 通分量; 通过预设的迭代聚类方式对所述待处理连通分量进行处理, 直到处理获得的所有子图 都是目标子图, 其中, 所述目标子图的顶点个数小于所述预设的最大术语数; 将所述目标 连通分量和所述目标子图作为所述目标聚类图。 6.根据权利要求5所述的术语聚类方法, 其特 征在于, 所述预设的迭代聚类方式包括: 获取第h代待处理子图, 对各所述第h代待处理子图进行谱聚类, 将所述谱聚类后获得 的顶点个数小于所述最大术语数的子图作为所述目标子图, 将所述谱聚类后获得的顶点个 数不小于所述最大术语数的子图作为第h+1代待处理子图, 其中, 第1代待处理子图为所述权 利 要 求 书 1/2 页 2 CN 114741506 A 2待处理连通分量, h为大于 0的整数。 7.根据权利要求5所述的术语聚类方法, 其特征在于, 所述目标子图还满足预设的聚类 区分条件, 所述聚类区分条件 包括: 任意两个平均嵌入表示之间的术语相似度小于预设的相似度判断阈值, 其中, 一个所 述平均嵌入是一个所述目标子图中所有顶点对应的嵌入表示的平均值。 8.一种术语聚类系统, 其特 征在于, 所述 术语聚类系统包括: 嵌入表示获取模块, 用于获取待聚类术语以及各 所述待聚类术语的嵌入表示; 术语相似度计算模块, 用于根据所述待聚类术语的嵌入表示计算各所述待聚类术语之 间的术语相似度, 其中, 一个术语相似度体现两个所述待聚类术语之间的语义的相似度; 目标聚类图获取模块, 用于以所述待聚类术语为顶点, 基于所述术语相似度获取至少 一个目标聚类图, 其中, 所述目标聚类图为连通的无向图, 所述目标聚类图的顶点个数小于 预设的最大术语数, 所述目标聚类图中任意一条边连接的两个顶点之 间的术语相似度大于 预设的相似度连接阈值; 术语聚类模块, 用于根据所述目标聚类图对所述待聚类术语进行聚类。 9.一种智能终端, 其特征在于, 所述智能终端包括存储器、 处理器以及存储在所述存储 器上并可在所述处理器上运行的术语聚类程序, 所述术语聚类程序被所述处理器执行时实 现如权利要求1 ‑7任意一项所述 术语聚类方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有术语聚 类程序, 所述术语聚类程序被处理器执行时实现如权利要求1 ‑7任意一项所述术语聚类方 法的步骤。权 利 要 求 书 2/2 页 3 CN 114741506 A 3
专利 术语聚类方法、系统、智能终端及计算机可读存储介质
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 08:59:00
上传分享
举报
下载
原文档
(757.5 KB)
分享
友情链接
GB-T 37027-2018 信息安全技术 网络攻击定义及描述规范.pdf
GB-T 2847-2005 用于水泥中的火山灰质混合材料.pdf
GB-T 22696.1-2008 电气设备的安全 风险评估和风险降低 第1部分:总则.pdf
GB-T 42012-2022 信息安全技术 即时通信服务数据安全要求.pdf
GB-T 32915-2016 信息安全技术 二元序列随机性检测方法.pdf
GB-T 22838.11-2009 卷烟和滤棒物理性能的测定 第11部分:卷烟熄火.pdf
YD-T 4177.3-2022 移动互联网应用程序(APP)收集使用个人信息最小必要评估规范 第3部分:图片信息.pdf
T-DZJN 101—2022 数据中心电力模块预制化技术规范.pdf
SC-T 1077-2004 渔用配合饲料通用技术要求.pdf
GB-T 35284-2017 信息安全技术 网站身份和系统安全要求与评估方法.pdf
T-ZZB 0659—2018 马丁代尔耐磨及起毛起球性能试验仪.pdf
GB-T 21296.1-2020 动态公路车辆自动衡器 第1部分:通用技术规范.pdf
GB-T 24420-2009 供应链风险管理指南.pdf
GB-T 17901.1-2020 信息技术 安全技术 密钥管理 第1部分:框架.pdf
T-XJNFCP 002—2023 预制菜保质期通用规范.pdf
GB-T 16945-2009 电子工业用气体 氩.pdf
GM-T 0017-2012 智能密码钥匙密码应用接口数据格式规范.pdf
法律法规 唐山市人民代表大会常务委员会关于第二批废止地方性法规中若干行政许可规定的决定.pdf
GB-T 33764-2017 独立光伏系统验收规范.pdf
专利 一种用于堡垒机的数据库高危指令审核方法和系统.PDF
交流群
-->
1
/
3
19
评价文档
赞助2元 点击下载(757.5 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。