(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210018513.X
(22)申请日 2022.01.07
(65)同一申请的已公布的文献号
申请公布号 CN 114372573 A
(43)申请公布日 2022.04.19
(73)专利权人 中国人民解 放军国防科技大 学
地址 410073 湖南省长 沙市开福区德雅路
109号
(72)发明人 赵涛 严少洁 邓劲生 宋省身
乔凤才 尹晓晴
(74)专利代理 机构 长沙国科天河知识产权代理
有限公司 432 25
专利代理师 李杨
(51)Int.Cl.
G06N 7/00(2006.01)G06K 9/62(2022.01)
G06F 16/36(2019.01)
G06F 40/284(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
审查员 沈晴
(54)发明名称
用户画像信息识别方法、 装置、 计算机设备
和存储介质
(57)摘要
本申请涉及一种用户画像信息识别方法、 装
置、 计算机设备和存储介质。 所述方法包括: 以商
品为项目、 以商品单词为属性, 建立用户、 项目、
属性为节点的异质图, 并基于元路径感知算法,
在异质图中进行抽样, 得到节点交互数据, 结合
历史点击购买日志数据, 对任一用户构建超图,
得到超图关联矩阵; 根据训练集中每个用户的节
点交互数据、 超图关联矩阵, 以及用户的真实标
签信息, 输入到用户画像信息识别模型中, 通过
超图卷积神经网络层以用户表征向量为节点初
始特征, 根据超图关联矩阵挖掘用户之间的高阶
关系, 通过训练集对模型进行训练, 将训练好的
用户画像信息识别模型对无标签的测试集进行
用户画像信息识别。 本发明提高了用户画像信息
识别准确度。
权利要求书3页 说明书13页 附图4页
CN 114372573 B
2022.09.16
CN 114372573 B
1.一种用户画像信息识别方法, 其特 征在于, 所述方法包括:
从电商平台获取原始的商 品文本数据、 用户文本数据以及用户在所述电商平台的历史
点击购买日志数据, 并对所述商品文本数据进行预 处理, 得到商品的单词语料库, 并进一步
得到属性表征向量;
根据所述用户文本数据、 所述历史点击购买日志数据以及预处理后的商品文本数据,
以商品为项目、 以商品单词为属性, 建立用户、 项目、 属性为节点的异质图, 并基于元路径感
知算法, 在所述异质图中进行抽样, 得到节点交 互数据;
根据所述历史点击购买日志数据和所述节点交互数据, 对任一用户, 以其k跳邻居集合
的用户集合为顶点集, 以任意多个顶点用户共同点击购买过的所有商品为超边集, 根据所
述顶点集、 所述超边集以及所述超边集中每条超边的权重, 构建所述用户的迷你图超图, 并
进一步得到超图关联矩阵;
获取训练集, 并得到所述训练集中每个用户的节点交互数据、 所述用户的超图关联矩
阵, 以及所述用户的真实标签信息;
将所述用户的所述节点交互数据和所述超图关联矩阵输入到用户画像信息识别模型
中; 所述用户画像信息识别模型包括依次连接的输入嵌入层、 异质图注意力 层、 超图卷积神
经网络层和输出层; 所述输入嵌入层用于根据所述节点交互数据确定所述用户的属性表征
向量; 所述异质图注 意力层用于根据所述属性表征向量通过图注意力机制得到商品的项目
表征向量, 并进一步得到所述用户的用户表征向量; 所述超图卷积神经网络层用于以所述
用户表征向量为节点初始特征, 根据所述用户的超图关联矩阵挖掘用户之间的高阶关系;
所述输出层用于 输出所述用户的标签 类别预测结果;
根据所述用户的真实标签信息、 所述标签类别预测结果, 以及预设的损 失函数对所述
用户画像信息识别模型进行训练, 得到训练好的用户画像信息识别模型;
通过所述训练好的用户画像信息识别模型对无 标签的测试集进行用户画像信息识别。
2.根据权利要求1所述的方法, 其特征在于, 对所述商品文本数据进行预处理, 得到商
品的单词语料库, 并进一 步得到属性表征向量, 包括:
获取商品文本数据, 并进行清洗;
利用中文分词工具, 对清洗后的每条商品文本数据进行分词, 并去除停用词, 得到商品
单词的单词语料库;
利用开源的词向量计算和文本分类工具计算所述单词语料库文本的向量表征, 得到所
述单词语料库对应的属性表征向量;
根据所述属性表征向量, 过滤掉属性表征向量词频过低的商品, 得到预处理后的商品
文本数据。
3.根据权利要求2所述的方法, 其特征在于, 基于元路径感知算法, 在所述异质图中进
行抽样, 得到节点交 互数据, 包括:
根据所述历史点击购买日志数据得到所有用户关联的商品表和项目到用户的倒排表;
根据所述历史点击购买日志数据得到所有用户的邻居表;
根据所述邻居表从所述异质图中抽样得到所述用户的k跳邻居集合, 组成用户 ‑用户迷
你图, 并根据所述用户 ‑用户迷你图得到用户 ‑用户顶点矩阵;
对所述用户 ‑用户迷你图中的用户, 从所述用户关联的商品表中采样抽取多个相关联权 利 要 求 书 1/3 页
2
CN 114372573 B
2的项目, 得到用户 ‑项目迷你图, 并根据所述用户 ‑项目迷你图得到用户 ‑项目交互矩阵;
对所述用户 ‑项目迷你图中的项目, 对每个项目采样抽取多个关联的属性, 得到项目 ‑
属性交互矩阵;
由所述用户 ‑用户顶点矩阵、 用户 ‑项目交互矩阵和所述项目 ‑属性交互矩阵构成节点
交互数据。
4.根据权利要求3所述的方法, 其特征在于, 根据 所述历史点击购买日志数据和所述节
点交互数据, 对任一用户, 以其k跳邻居集合的用户集合为顶点集, 以任意多个顶点用户共
同点击购买过 的所有商品为超边集, 根据所述顶点集、 所述超边集以及所述超边集中每条
超边的权 重, 构建所述用户的迷你图超图, 并进一 步得到超图关联矩阵, 包括:
对任一用户, 根据所述节点交互数据中的用户 ‑用户顶点矩阵, 以所述用户的k跳邻居
集合的用户集 合为顶点集V, 以任意多个顶点用户共同点击购买过的所有 商品为超边 集E;
通过遍历所述顶点 集V和所述项目到用户的倒排表的所有交集, 得到所有超边的节点;
根据所述顶点集V、 所述超边集E以及所述超边集中每条超边的权重W, 构建所述用户的
迷你图超图G=(V,E,W);
将所述迷你图超图G用超图关联矩阵H表示, 定义 为:
其中, 超图关联矩阵H的行代表不同的超图节点, 即用户, 列代表不同的超边, 即用户在
电商平台上点击或者购买过的项目, 当节点v在超边e 上时, 元素(v,e)为1。
5.根据权利要求4所述的方法, 其特征在于, 根据 所述节点交互数据确定所述用户的属
性表征向量, 包括:
根据所述用户 ‑项目交互矩阵, 确定所述用户关联的商品;
根据所述用户关联的商品和所述项目 ‑属性交互矩阵, 确定所述用户关联的商品单词;
根据所述商品单词确定所述用户对应的属性表征向量。
6.根据权利要求5所述的方法, 其特征在于, 根据 所述属性表征向量通过图注意力 机制
得到商品的项目表征向量, 并进一 步得到所述用户的用户表征向量, 包括:
根据异质图注意力层中的学习参数、 权重矩阵和偏置向量以及所述属性表征向量, 计
算属性对项目的第一注意力系数;
根据所述第一注意力系数 得到属性对项目的第一注意力分数;
根据项目的关联属性和对应的第一注意力分数对属性加权得到项目的项目表征向量;
根据异质图注意力层中的学习参数、 权重矩阵和偏置向量以及所述项目表征向量, 计
算项目对用户的第二注意力系数;
根据所述第二注意力系数 得到项目对用户的第二注意力分数;
根据用户的关联属性和对应的第 二注意力分数对项目加权得到用户的用户表征向量X
=[x1,,x2,,…x|V|]。
7.根据权利要求6所述的方法, 其特 征在于, 所述超图卷积神经网络层的第l层定义 为:
权 利 要 求 书 2/3 页
3
CN 114372573 B
3
专利 用户画像信息识别方法、装置、计算机设备和存储介质
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 08:59:22上传分享