专利 一种融合元学习和预训练的概念漂移主动检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210943351.0 (22)申请日 2022.08.08 (71)申请人上海大学地址 200444 上海市宝山区上大路99号 (72)发明人余航　孙一平　 (74)专利代理机构上海上大专利事务所(普通合伙) 3120 5 专利代理师何文欣 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 16/2455(2019.01) G06K 9/62(2022.01) (54)发明名称一种融合元学习和预训练的概念漂移主动检测方法 (57)摘要本发明公开了一种融合元学习和预训练的概念漂移主动检测方法，包括一种离线预训练框架、元检测器学习方法和基于流式主动学习算法，离线预训练框架通过在预训练数据集上离线学习每种概念漂移的特点来学习检测概念漂移，并识别出漂移的类型；元检测器学习方法将预训练阶段转化为小样本学习问题，并将各种概念漂移类表示为单个原型；基于流式的主动学习算法通过使元检测器适应流中的底层分布来更新元检测器中的各个原型。本发明通过已知漂移模型来进行分类，根据各概念漂移的错误率提取元特征，通过将各种概念漂移类表示为相应的原型，在检测阶段，元检测器通过一个简单的基于流式的主动学习进行微调，以适应真实的数据流，具有效果直观的特点。权利要求书2页说明书5页附图1页 CN 115409154 A 2022.11.29 CN 115409154 A 1.一种融合元学习和预训练的概念漂移主动检测方法，包括一种离线预训练框架、元检测器学习方法和基于流式的主动学习算法，其特征在于：所述离线预训练框架通过在预训练数据集上离线学习每种概念漂移的特点来学习检测概念漂移，并识别出概念漂移的类型；所述元检测器学习方法将预训练阶段转化为小样本学习问题，并将各种概念漂移类型表示为单个原型；所述基于流式的主动学习算法通过使元检测器适应流中的底层分布来更新元检测器中的各个原型；本方法通过对数据流中元特征的提取，从原型神经网络中生成元检测器并对元检测器进行更新，其中，元特征提取采用两个窗口的平均错误率之间的差距作为元特征。 2.根据权利要求1所述的融合元学习和预训练的概念漂移主动检测方法，其特征在于：所述离线预训练框架的运行方法具体包括以下步骤：步骤A：对于每种类型的概念漂移，首先利用MOA生成含有该类型概念漂移数据流的工具包生成数量为N的数据流，并对数据流内的样本数量m进行统计，根据每个窗口大小n计算窗口数量 l，其中步骤B：将两个窗口之间的平均错误率差距表示为Gapi，其中Gapi＝l‑1；步骤C：将预训练中的训练样本表示为Gi: 其中表示对应的概念漂移类型；其中， i表示第i个样本； R表示实数域； Rl表示样本的特征为l个。步骤D：将具有N个数据流的原始数据集从表示为g:{X ×y}N×m，映射到数据集G: X表示原始数据样本； y表示样本的真实标签。步骤E：基于数据集G: RN×l表示形状为N ×l的实数矩阵。利用原型网络进行训练生成元检测器。 3.根据权利要求2所述的融合元学习和预训练的概念漂移主动检测方法，其特征在于：所述步骤E中，元检测器的生成方法包括以下步骤：步骤E1：嵌入一个典型的原型网络生成元检测器，建立小样本学习模型；步骤E2：基于支持数据集G: 使用可学习参数θ对应的原型网络fθ:RN→RM 将流数据Xi映射到嵌入空间fθ(Xi)，并将单个k类原型表示为ck作为嵌入空间中所在支持集的平均值， k 为数据标签； RN表示长度为 N的实数向量； RM表示长度为M的实数向量。步骤E3：对流数据Xi中的数据选定查询点X，并通过嵌入空间中找到一段距离上最近的原型ck，对查询点进行分类，并计算分类结果表示真实样本映射后的估计样本。步骤E4：分类完成后，选择以负对数似然函数作为训练目标，对原型网络进行优化。 4.根据权利要求3所述的融合元学习和预训练的概念漂移主动检测方法，其特征在于：所述步骤E2中，嵌入空间中所在支持集的平均值ck的计算公式为：权　利　要　求　书 1/2 页 2 CN 115409154 A 2其中， Sk表示标签为k的流数据集，并引入距离度量函数d:RM×RM→R； Xi表示第i个真实数据样本； yi表示第i个样本的真实标签。 5.根据权利要求3所述的融合元学习和预训练的概念漂移主动检测方法，其特征在于：所述步骤E3中，分类结果的计算公式具体如下：其中， ck'表示除ck外的其他原型；在训练阶段，通过计算每个概念漂移类的支持样本的均值，对每个随机事件选择对应数量的数据流样本，用来表示嵌入空间中所在支持集的平均值ck，并基于度量函数计算查询集中每个数据流样本与不同原型表示ck的距离，并对原型网络的训练损失进行分析，完成原型网络的优化。 6.根据权利要求1所述的融合元学习和预训练的概念漂移主动检测方法，其特征在于：所述元检测器进行更新的方法包括以下步骤：步骤S1：收集数据样本Wi＝{et‑n,…,ei}，其中et表示在时间戳t处得到的错误率； ei表示第i个时间戳； n表示时间戳t向前倒退n个时间点。步骤S2：对收集到的样本进行筛选，计算出该样本属于C类的概率P(C)，其中并计算该样本对应的分类熵H(C)。 7.根据权利要求6所述的融合元学习和预训练的概念漂移主动检测方法，其特征在于：所述步骤S1中，引入时间戳的作用在于：建立一种时间窗滑动机制，具体为根据时间对数据流的特征进行元特征提取，进而分析相邻时间戳上的不同漂移类型之间的联系。 8.根据权利要求6所述的融合元学习和预训练的概念漂移主动检测方法，其特征在于：所述步骤S2中，样本对应的分类熵H(C)的计算公式为：分类熵表示预测目标分类的不确定性，熵值越大，表示概念漂移的类型越不确定，因此需要对这种不确定类型的分类熵较大的目标进行手工标注。权　利　要　求　书 2/2 页 3 CN 115409154 A 3

专利 一种融合元学习和预训练的概念漂移主动检测方法

专利一种融合元学习和预训练的概念漂移主动检测方法