(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210943351.0
(22)申请日 2022.08.08
(71)申请人 上海大学
地址 200444 上海市宝山区上 大路99号
(72)发明人 余航 孙一平
(74)专利代理 机构 上海上大专利事务所(普通
合伙) 3120 5
专利代理师 何文欣
(51)Int.Cl.
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 16/2455(2019.01)
G06K 9/62(2022.01)
(54)发明名称
一种融合元学习和预训练的概念漂移主动
检测方法
(57)摘要
本发明公开了一种融合元学习和预训练的
概念漂移主动检测方法, 包括一种离线预训练框
架、 元检测器学习方法和基于流式主动学习算
法, 离线预训练框架通过在预训练数据集上离线
学习每种概念漂移的特点来学习检测概念漂移,
并识别出漂移的类型; 元检测器学习方法将预训
练阶段转化为小样本学习问题, 并将各种概念漂
移类表示为单个原型; 基于流式的主动学习算法
通过使元检测器适应流中的底层分布来更新元
检测器中的各个原型。 本发明通过已知漂移模型
来进行分类, 根据各概念漂移的错误率提取元特
征, 通过将各种概念漂移类表示为相应的原型,
在检测阶段, 元检测器通过一个简单的基于流式
的主动学习进行微调, 以适应真实的数据流, 具
有效果直观的特点。
权利要求书2页 说明书5页 附图1页
CN 115409154 A
2022.11.29
CN 115409154 A
1.一种融合元学习和预训练的概念漂移主动检测方法, 包括一种离线预训练框架、 元
检测器学习 方法和基于流式的主动学习算法, 其特征在于: 所述离线预训练框架通过在预
训练数据集上离线学习每种概念漂移的特点来学习检测概念漂移, 并识别出概念漂移的类
型; 所述元检测器学习 方法将预训练阶段转化为小样本学习问题, 并将各种概念漂移类型
表示为单个原型; 所述基于流式的主动学习算法通过使元检测器适应流中的底层分布来更
新元检测器中的各个原型; 本方法通过对数据流中元特征 的提取, 从原型神经网络中生成
元检测器并对元检测器进行更新, 其中, 元特征提取采用两个窗口的平均错误率之间的差
距作为元 特征。
2.根据权利要求1所述的融合元学习和预训练 的概念漂移主动检测方法, 其特征在于:
所述离线预训练框架的运行 方法具体包括以下步骤:
步骤A: 对于每种类型的概念漂移, 首先利用MOA生成含有该类型概念漂移数据流的工
具包生成数量为N的数据流, 并对数据流内的样本数量m进 行统计, 根据每个窗口大小n计算
窗口数量 l, 其中
步骤B: 将两个窗口之间的平均错 误率差距表示为Gapi, 其中Gapi=l‑1;
步骤C: 将预训练中的训练样本表示为Gi:
其中
表示对应 的概念漂移类型; 其中, i表示第i个样本; R表示实数域; Rl表示样本的特
征为l个。
步骤D: 将具有N个数据流的原始数据集从表示为g:{X ×y}N×m, 映射到数据集G:
X表示原始数据样本; y表示样本的真实标签。
步骤E: 基于数据集G:
RN×l表示形状为N ×l的实数矩阵。 利用原型网络
进行训练生成元检测器。
3.根据权利要求2所述的融合元学习和预训练 的概念漂移主动检测方法, 其特征在于:
所述步骤E中, 元检测器的生成方法包括以下步骤:
步骤E1: 嵌入一个典型的原型网络生成元检测器, 建立小样本学习模型;
步骤E2: 基于支持数据集G:
使用可学习参数θ对应的原型网络fθ:RN→RM
将流数据Xi映射到嵌入空间fθ(Xi), 并将单个k类原型表示为ck作为嵌入空间中所在支持集
的平均值, k 为数据标签; RN表示长度为 N的实数向量; RM表示长度为M的实数向量。
步骤E3: 对流数据Xi中的数据选定查询点X, 并通过嵌入空间中找到一段距离上最近的
原型ck, 对查询点进行分类, 并计算分类结果
表示真实样本映射后的估计
样本。
步骤E4: 分类完成后, 选择以负对 数似然函数
作为训练目标,
对原型网络进行优化。
4.根据权利要求3所述的融合元学习和预训练 的概念漂移主动检测方法, 其特征在于:
所述步骤E2中, 嵌入空间中所在支持集的平均值ck的计算公式为:权 利 要 求 书 1/2 页
2
CN 115409154 A
2其中, Sk表示标签为k的流数据集, 并引入距离度量函数d:RM×RM→R; Xi表示第i个真实
数据样本; yi表示第i个样本的真实标签。
5.根据权利要求3所述的融合元学习和预训练 的概念漂移主动检测方法, 其特征在于:
所述步骤E3中, 分类结果
的计算公式具体如下:
其中, ck'表示除ck外的其他原型; 在训练 阶段, 通过计算每个概念漂移类的支持样本的
均值, 对每个随机事件选择对应数量的数据流样本, 用来表示嵌入空间中所在支持集的平
均值ck, 并基于度量函 数计算查询集中每个数据流样本与不同原型表示ck的距离, 并对原型
网络的训练损失进行分析, 完成原型网络的优化。
6.根据权利要求1所述的融合元学习和预训练 的概念漂移主动检测方法, 其特征在于:
所述元检测器进行 更新的方法包括以下步骤:
步骤S1: 收集数据 样本Wi={et‑n,…,ei}, 其中et表示在时间戳t处得到的错误率; ei表示
第i个时间戳; n表示时间戳t向前倒退n个时间点。
步骤S2: 对收集到的样本进行筛选, 计算出该样本属于C类的概率P(C), 其中
并计算该样本对应的分类熵H(C)。
7.根据权利要求6所述的融合元学习和预训练 的概念漂移主动检测方法, 其特征在于:
所述步骤S1中, 引入时间戳的作用在于: 建立一种时间窗滑动机制, 具体为根据时间对数据
流的特征进行元特征提取, 进 而分析相邻时间戳上的不同漂移类型之间的联系。
8.根据权利要求6所述的融合元学习和预训练 的概念漂移主动检测方法, 其特征在于:
所述步骤S2中, 样本对应的分类熵H(C)的计算公式为:
分类熵表示预测目标分类的不确定性, 熵值越大, 表示概念漂移的类型越不确定, 因此
需要对这种不确定类型的分类熵较大的目标进行手工标注。权 利 要 求 书 2/2 页
3
CN 115409154 A
3
专利 一种融合元学习和预训练的概念漂移主动检测方法
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 17:16:06上传分享