(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210788585.2
(22)申请日 2022.07.06
(71)申请人 杭州费尔斯 通科技有限公司
地址 310051 浙江省杭州市滨江区西兴街
道阡陌路482号B楼第七层
(72)发明人 韩瑞峰 杨红飞 程东
(74)专利代理 机构 杭州求是专利事务所有限公
司 33200
专利代理师 刘静
(51)Int.Cl.
G06F 16/2455(2019.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于贝叶斯优化的数据检索方法及装
置
(57)摘要
本发明公开了一种基于贝叶斯优化的数据
检索方法及装置, 计算检索数据与数据集数据的
距离, 用数据与距离构成训练集; 用GAN网络的编
码器得到训练集中数据的隐空间表 示向量, 用高
斯过程对 隐空间表示向量和检索数据与数据集
数据的距离构成的向量数据集拟合, 得到高斯过
程模型; 利用高斯过程模型, 通过最优化采样函
数对向量数据集进行采样, 得到使得采样函数最
大的隐空间上的q个变量; 用GAN网络的解码器q
个变量对解码, 得到一组数据, 用距离函数得到
采样点与检索数据的距离, 进行迭代训练, 将采
样点中距离小于阈值的点作为数据检索的结果。
权利要求书2页 说明书5页 附图2页
CN 114880360 A
2022.08.09
CN 114880360 A
1.一种基于贝叶斯优化的数据检索方法, 其特 征在于, 该 方法包括以下步骤:
(1) 对于一条检索数据I, 在待检索的数据集中随机选取一部分数据作为训练集, 计算
训练集中每条数据j与检索数据I之间的距离d_j_I, 用数据j和数据j与检索数据I之间的距
离d_j_I形成的数据对 (j, d_j_I) 构成训练集;
(2) 将检索 数据I输入GAN网络, 基于GAN网络编码层输出按照高斯分布随机采样得到样
本z, 建立以样本z为输入, 数据j与检索数据I之间的距离d_j_I为输出的全连接预测网络;
同时建立以样本z为输入, 用0和1为输出表示为生成和真实样本的全连接真实样本预测网
络; 计算数据重 建损失、 KL散度损失、 度量学习损失、 目标预测损失、 真实和生成数据预测损
失, 训练GAN网络;
(3) 用训练后的GAN网络的编码器得到训练集 中数据j的隐空间表示向量z_j, 将隐空间
表示向量z_j和数据j与检索数据I之间的距离d_j_I构建向量数据集 (z_j, d_j_I) , 用高斯
过程对该向量数据集 (z_j, d_j_I) 进行拟合, 得到高斯过程模型;
(4) 基于贝叶斯优化过程, 迭代地拟合 高斯过程模型、 采样新数据, 具体为: 通过最优化
采样函数对向量数据集进 行采样, 得到使 得采样函数最大的 隐空间上的q个样本z; 用GAN网
络的解码 器对样本z解码, 得到一组数据j2, 将其中不存在于待检索的数据集中的数据去除
后, 用距离函数得到采样点与检索数据I的距离d_j2 _I, 将 (j2, d_j2 _I) 新增到训练集中, 返
回步骤 (3) 重新训练高斯过程模型, 重复这一过程直到与检索数据I的距离小于阈值; 迭代
得到的采样点中距离d_j2_I小于阈值的点作为数据检索的结果。
2.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法, 其特征在于, 步骤 (4)
中, 迭代过程中如果达到了最大迭代次数, 则直接取目前为止采样点中与检索数据I距离最
近的作为数据检索的结果。
3.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法, 其特征在于, 两条数据
之间的相似距离度量方法为score_functi on。
4.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法, 其特征在于, 数据重建
损失具体为: 检索数据I输入GAN网络, 通过编码网络得到向量u和std, u和std分别表 示检索
数据I经过编码之后的均值和方差, 按照高斯分布随机采样得到样本z, 用二分类用的交叉
熵损失函数BC E对样本z和检索数据I计算数据重建损失。
5.根据权利要求4所述的一种基于贝叶斯优化的数据检索方法, 其特征在于, KL散度损
失具体为: 计算u和std表示的分布与样本 z表示的分布之间的KL散度。
6.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法, 其特征在于, 真实和生
成数据预测损失具体为: 输入样本z, 用全连接 真实样本预测网络得到输出, 与真值 1计算交
叉熵损失, 得到预测损失; 用与输入数据维度相同的随机向量作为GAN网络输入, 经过编码
器网络得到随机向量的样本z2, 用全连接 真实样本预测网络得到输出, 与真值0计算交叉熵
损失, 得到预测损失。
7.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法, 其特征在于, 度量学习
损失具体为: 对样本 z进行计算对比学习损失或t riplet损失。
8.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法, 其特征在于, 目标预测
损失具体为: 用样 本z作为全连接预测网络的输入, 用输出和数据j与检索数据I之 间的距离
d_j_I计算交叉熵损失, 得到预测损失。权 利 要 求 书 1/2 页
2
CN 114880360 A
29.一种基于贝叶斯优化的数据检索装置, 包括存储器和一个或多个处理器, 所述存储
器中存储有 可执行代码, 其特征在于, 所述处理器执行所述可执行代码时, 用于实现如权利
要求1‑8中任一项所述的基于贝叶斯优化的数据检索方法的步骤。
10.一种计算机可读存储介质, 其上存储有程序, 其特征在于, 该程序被处理器执行时,
实现如权利要求1 ‑8中任一项所述的基于贝叶斯优化的数据检索方法的步骤。权 利 要 求 书 2/2 页
3
CN 114880360 A
3
专利 一种基于贝叶斯优化的数据检索方法及装置
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:14:56上传分享