(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210929119.1
(22)申请日 2022.08.03
(71)申请人 中国电信股份有限公司
地址 100033 北京市西城区金融大街31号
(72)发明人 裴迎栋 田盼 左芳芳 邓丽华
李国钦
(74)专利代理 机构 北京律智知识产权代理有限
公司 11438
专利代理师 王辉
(51)Int.Cl.
G06F 40/216(2020.01)
G06F 40/289(2020.01)
G06Q 30/02(2012.01)
G06Q 30/08(2012.01)
(54)发明名称
招标需求热点识别方法、 装置、 存储介质及
电子设备
(57)摘要
本申请属于新兴信息技术领域, 涉及招标需
求热点识别方法、 装置、 存储介质及电子设备。 该
方法包括: 对目标行业对应的招标需求文本集中
各招标需求文本进行预处理, 以获取与所述招标
需求文本对应的关键词, 并根据所述关键词生成
招标需求语料库; 将所述招标需求语料库输入至
主题模型, 通过所述主题模型对 所述招标需求语
料库进行信息提取, 以获取主题 ‑词概率; 根据与
所述关键词对应的TF ‑IDF值和所述主题 ‑词概率
确定主题关联匹配度, 并根据所述主题关联匹配
度确定与所述目标行业对应的招标需求热点。 本
申请能够提高招标需求热点的识别效率和识别
准确度。
权利要求书2页 说明书12页 附图4页
CN 115238676 A
2022.10.25
CN 115238676 A
1.一种招标需求热点识别方法, 其特 征在于, 包括:
对目标行业对应的招标需求文本集中各招标需求文本进行预处理, 以获取与 所述招标
需求文本对应的关键词, 并根据所述关键词生成招标需求语料库;
将所述招标需求语料库输入至主题模型, 通过所述主题模型对所述招标需求语料库进
行信息提取, 以获取主题 ‑词概率;
根据与所述关键词对应的TF ‑IDF值和所述主题 ‑词概率确定主题关联匹配度, 并根据
所述主题关联匹配度确定与所述目标 行业对应的招标需求热点。
2.根据权利要求1所述的方法, 其特征在于, 所述对与目标行业对应的招标需求文本集
中各招标需求文本进行 预处理, 以获取与所述招标需求文本对应的关键词, 包括:
对所述招标需求文本进行分词和停用词去除, 以获取待处 理文本;
计算所述待处理文本中各个分词的TF ‑IDF值, 对所述招标需求文本集中所包含的所有
分词根据所述TF ‑IDF值由大到小 进行排序, 以获取分词序列;
从所述分词序列中依次获取 预设数量的分词作为所述关键词。
3.根据权利要求1所述的方法, 其特征在于, 所述招标需求语料库包括多个所述招标需
求文本和与各 所述招标需求文本对应的关键词;
所述将所述招标需求语料库输入至主题模型, 通过所述主题模型对所述招标需求语料
库进行信息提取, 以获取主题 ‑词概率, 包括:
获取与所述招标需求文本对应的文本向量以及与 所述关键词对应的词向量, 根据 所述
文本向量和所述词向量构建输入矩阵;
将所述输入矩阵输入至所述主题模型, 通过所述主题模型对所述输入矩阵进行信 息提
取, 以输出所述主题 ‑词概率, 所述主题 ‑词概率用于指示所述招标需求文本中各所述关键
词对应预设主题的概 率。
4.根据权利要求3所述的方法, 其特 征在于, 所述方法还 包括:
在将所述招标需求语料库输入至主题模型之前, 计算在设定不同主题数量 时与所述主
题模型对应的困惑度;
根据所述主题数量和所述困惑度构建主题数 ‑困惑度图, 获取所述主题数 ‑困惑度图中
的拐点;
将所述拐点对应的主题数量作为最优主题数, 并基于所述最优主题数确定所述主题 ‑
词概率。
5.根据权利要求1中所述的方法, 其特征在于, 在将所述招标需求语料库输入至主题模
型之前, 所述方法还 包括:
获取与所述目标 行业对应的招标需求文本样本集;
对所述招标需求文本样本集中各招标需求文本样本进行预处理, 以获取与 所述招标需
求文本样本对应的关键词样本;
根据所述关键词样本生成招标需求语料样本库, 并根据 所述招标需求语料样本库对待
训练主题模型进行训练, 以获取 所述主题模型。
6.根据权利 要求1所述的方法, 其特征在于, 所述根据与所述关键词对应的TF ‑IDF值和
所述主题 ‑词概率确定主题关联匹配度, 包括:
根据与各所述招标需求文本中各所述关键词对应的TF ‑IDF值和所述主题 ‑词概率确定权 利 要 求 书 1/2 页
2
CN 115238676 A
2与各所述招标需求文本对应的多个主题关联匹配度;
将与各所述招标需求文本对应的多个所述主题关联匹配度中的最大主题关联匹配度
作为与所述招标需求文本对应的目标主题关联匹配度。
7.根据权利要求6所述的方法, 其特征在于, 所述根据与 各所述招标需求文本中各所述
关键词对应的T F‑IDF值和所述主题 ‑词概率确定与各所述招标需求文本对应的多个主题关
联匹配度, 包括:
根据公式(1)计算所述主题关联匹配度:
其中, p(T)为对应当前主题T的主题关联匹配度, vi为与所述 当前主题T对应的关键词集
合V中的第i个关键词, α 为主题权重, α ∈[0,1], TFvi为与关键词vi对应的TF值, IDFvi为与关
键词vi对应的IDF值, p(vi|T)为关键词vi与当前主题T之间的主题 ‑词概率。
8.根据权利要求6所述的方法, 其特征在于, 所述根据所述主题关联匹配度确定与 所述
目标行业对应的招标需求热点, 包括:
将所述目标主题关联匹配度对应的主题作为所述招标需求热点。
9.根据权利要求1所述的方法, 其特征在于, 在对与目标行业对应的招标需求文本集中
各招标需求文本进行 预处理之前, 所述方法还 包括:
获取与所述目标行业对应的招标文本集, 所述招标文本集中包括一个或多个招标文
本;
提取所述招标文本 中对应服务需求的目标文本, 并根据 所述目标文本构建所述招标需
求文本集。
10.一种招标需求热点识别装置, 其特 征在于, 包括:
预处理模块, 用于对与目标行业对应的招标需求文本集中各招标需求文本进行预处
理, 以获取与所述招标需求文本对应的关键词, 并根据所述关键词生成招标需求语料库;
主题处理模块, 用于将所述招标需求语料库输入至主题模型, 通过所述主题模型对所
述招标需求语料库进行处 理, 以获取主题 ‑词概率;
热点识别 模块, 用于根据与所述关键词对应的TF ‑IDF值和所述主题词概率确定主题关
联匹配度, 并根据所述主题关联匹配度确定与所述目标 行业对应的招标需求热点。
11.一种计算机存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处
理器执行时实现权利要求1~ 9中任意一项所述的招标需求热点识别方法。
12.一种电子设备, 其特 征在于, 包括:
处理器; 以及
存储器, 用于存 储所述处 理器的可 执行指令;
其中, 所述处理器配置为经由执行所述可执行指令来执行权利要求1~9中任意一项所
述的招标需求热点识别方法。权 利 要 求 书 2/2 页
3
CN 115238676 A
3
专利 招标需求热点识别方法、装置、存储介质及电子设备
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:32:39上传分享