说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210788585.2 (22)申请日 2022.07.06 (71)申请人 杭州费尔斯 通科技有限公司 地址 310051 浙江省杭州市滨江区西兴街 道阡陌路482号B楼第七层 (72)发明人 韩瑞峰 杨红飞 程东  (74)专利代理 机构 杭州求是专利事务所有限公 司 33200 专利代理师 刘静 (51)Int.Cl. G06F 16/2455(2019.01) G06K 9/62(2022.01) (54)发明名称 一种基于贝叶斯优化的数据检索方法及装 置 (57)摘要 本发明公开了一种基于贝叶斯优化的数据 检索方法及装置, 计算检索数据与数据集数据的 距离, 用数据与距离构成训练集; 用GAN网络的编 码器得到训练集中数据的隐空间表 示向量, 用高 斯过程对 隐空间表示向量和检索数据与数据集 数据的距离构成的向量数据集拟合, 得到高斯过 程模型; 利用高斯过程模型, 通过最优化采样函 数对向量数据集进行采样, 得到使得采样函数最 大的隐空间上的q个变量; 用GAN网络的解码器q 个变量对解码, 得到一组数据, 用距离函数得到 采样点与检索数据的距离, 进行迭代训练, 将采 样点中距离小于阈值的点作为数据检索的结果。 权利要求书2页 说明书5页 附图2页 CN 114880360 A 2022.08.09 CN 114880360 A 1.一种基于贝叶斯优化的数据检索方法, 其特 征在于, 该 方法包括以下步骤: (1) 对于一条检索数据I, 在待检索的数据集中随机选取一部分数据作为训练集, 计算 训练集中每条数据j与检索数据I之间的距离d_j_I, 用数据j和数据j与检索数据I之间的距 离d_j_I形成的数据对 (j,  d_j_I) 构成训练集; (2) 将检索 数据I输入GAN网络, 基于GAN网络编码层输出按照高斯分布随机采样得到样 本z, 建立以样本z为输入, 数据j与检索数据I之间的距离d_j_I为输出的全连接预测网络; 同时建立以样本z为输入, 用0和1为输出表示为生成和真实样本的全连接真实样本预测网 络; 计算数据重 建损失、 KL散度损失、 度量学习损失、 目标预测损失、 真实和生成数据预测损 失, 训练GAN网络; (3) 用训练后的GAN网络的编码器得到训练集 中数据j的隐空间表示向量z_j, 将隐空间 表示向量z_j和数据j与检索数据I之间的距离d_j_I构建向量数据集 (z_j,  d_j_I) , 用高斯 过程对该向量数据集 (z_j,  d_j_I) 进行拟合, 得到高斯过程模型; (4) 基于贝叶斯优化过程, 迭代地拟合 高斯过程模型、 采样新数据, 具体为: 通过最优化 采样函数对向量数据集进 行采样, 得到使 得采样函数最大的 隐空间上的q个样本z; 用GAN网 络的解码 器对样本z解码, 得到一组数据j2, 将其中不存在于待检索的数据集中的数据去除 后, 用距离函数得到采样点与检索数据I的距离d_j2 _I, 将 (j2, d_j2 _I) 新增到训练集中, 返 回步骤 (3) 重新训练高斯过程模型, 重复这一过程直到与检索数据I的距离小于阈值; 迭代 得到的采样点中距离d_j2_I小于阈值的点作为数据检索的结果。 2.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法, 其特征在于, 步骤 (4) 中, 迭代过程中如果达到了最大迭代次数, 则直接取目前为止采样点中与检索数据I距离最 近的作为数据检索的结果。 3.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法, 其特征在于, 两条数据 之间的相似距离度量方法为score_functi on。 4.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法, 其特征在于, 数据重建 损失具体为: 检索数据I输入GAN网络, 通过编码网络得到向量u和std, u和std分别表 示检索 数据I经过编码之后的均值和方差, 按照高斯分布随机采样得到样本z, 用二分类用的交叉 熵损失函数BC E对样本z和检索数据I计算数据重建损失。 5.根据权利要求4所述的一种基于贝叶斯优化的数据检索方法, 其特征在于, KL散度损 失具体为: 计算u和std表示的分布与样本 z表示的分布之间的KL散度。 6.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法, 其特征在于, 真实和生 成数据预测损失具体为: 输入样本z, 用全连接 真实样本预测网络得到输出, 与真值 1计算交 叉熵损失, 得到预测损失; 用与输入数据维度相同的随机向量作为GAN网络输入, 经过编码 器网络得到随机向量的样本z2, 用全连接 真实样本预测网络得到输出, 与真值0计算交叉熵 损失, 得到预测损失。 7.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法, 其特征在于, 度量学习 损失具体为: 对样本 z进行计算对比学习损失或t riplet损失。 8.根据权利要求1所述的一种基于贝叶斯优化的数据检索方法, 其特征在于, 目标预测 损失具体为: 用样 本z作为全连接预测网络的输入, 用输出和数据j与检索数据I之 间的距离 d_j_I计算交叉熵损失, 得到预测损失。权 利 要 求 书 1/2 页 2 CN 114880360 A 29.一种基于贝叶斯优化的数据检索装置, 包括存储器和一个或多个处理器, 所述存储 器中存储有 可执行代码, 其特征在于, 所述处理器执行所述可执行代码时, 用于实现如权利 要求1‑8中任一项所述的基于贝叶斯优化的数据检索方法的步骤。 10.一种计算机可读存储介质, 其上存储有程序, 其特征在于, 该程序被处理器执行时, 实现如权利要求1 ‑8中任一项所述的基于贝叶斯优化的数据检索方法的步骤。权 利 要 求 书 2/2 页 3 CN 114880360 A 3

.PDF文档 专利 一种基于贝叶斯优化的数据检索方法及装置

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于贝叶斯优化的数据检索方法及装置 第 1 页 专利 一种基于贝叶斯优化的数据检索方法及装置 第 2 页 专利 一种基于贝叶斯优化的数据检索方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:14:56上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。