专利 工控网络中基于机器学习的攻击向量生成方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210357360.1 (22)申请日 2022.04.07 (65)同一申请的已公布的文献号申请公布号 CN 114443863 A (43)申请公布日 2022.05.06 (73)专利权人北京网藤科技有限公司地址 100070 北京市丰台区科学城海鹰路8 号院3号楼 A座301 (72)发明人赵越峰　赵西玉　李斌　 (74)专利代理机构北京星通盈泰知识产权代理有限公司 1 1952 专利代理师黄正奇 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01)G06F 16/38(2019.01) G06F 40/295(2020.01) G06F 21/57(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (56)对比文件 CN 112468440 A,2021.0 3.09 CN 114124445 A,202 2.03.01 CN 113196278 A,2021.07.3 0 EP 38645 66 A1,2021.08.18 审查员胡妮 (54)发明名称工控网络中基于机器学习的攻击向量生成方法及系统 (57)摘要本发明公开了工控网络中基于机器学习的攻击向量生成方法及系统，包括以下步骤：构建包含攻击向量的知识图谱，将知识图谱中的样本数据输入到预设的神经网络中进行训练，得到攻击向量筛选模型；获取漏洞库中各类漏洞的语言，将语言特征数据进行预处理后输入长短期记忆网络中进行训练，得到语言分析模型；融合生成攻击向量生成模型；对工控网络下的所有工控设备进行监控，检索到工控网络下遭受攻击的工控设备，得到设备检索结果，根据设备检索结果对工控设备进行协议解析，得到对应的工控协议；根据解析后的工控协议，获取遭受攻击的工控设备的历史运行数据；将历史运行数据进行预处理后输入到攻击向量生成模型中，得到工控设备对应的攻击向量。权利要求书2页说明书8页附图4页 CN 114443863 B 2022.07.26 CN 114443863 B 1.工控网络中基于机器学习的攻击向量生成方法，其特征在于：包括以下步骤：构建包含攻击向量的知识图谱，将所述知识图谱中的样本数据输入到预设的神经网络中进行训练，得到攻击向量筛选模型；获取漏洞库中各类漏洞语言，将语言特征数据进行预处理后输入长短期记忆网络中进行训练，得到语言分析模型；将所述攻击向量筛选模型和语言分析模型进行融合生成攻击向量生成模型；在工控网络中预设攻击检测系统和设备检索引擎，通过所述攻击检测系统，对遭受攻击的工控设备进行记录，通过所述设备检索引擎对遭受攻击的工控设备进行检索，得到设备检索结果；对所述设备检索结果进行筛选处理，以及去除所述设备检索结果中的冗杂数据，得到受击工控设备检索结果；抽取所述受击工控设备中工控协议的协议特征；基于所述协议特征，通过机器学习将所述受击工控设备的协议数据进行分类，得到分类后协议数据；采用最长公共子序列的文本比较算法对受击工控设备的未知工控协议按照不同字段进行分割，得到分割后协议字段；将分类后协议数据与所述分割后协议字段进行匹配识别，对受击工控设备的未知工控协议进行映射还原，得到对应的工控协议；根据所述受击工控设备对应的工控协议，得到所述受击工控设备的设备信息；根据所述设备信息获取所述受击工控设备的IP，根据IP向对应的受击工控设备发出数据包获取请求，得到所述受击工控设备的数据包，所述数据包中包括所述历史运行数据；对所述历史运行数据进行预处理，将所述历史运行数据变换成符合所述攻击向量生成模型输入条件的输入格式，生成攻击向量训练数据；将所述攻击向量训练数据输入所述攻击向量生成模型，生成攻击向量。 2.根据权利要求1所述的工控网络中基于机器学习的攻击向量生成方法，其特征在于：所述构建包含攻击向量的知识图谱，将所述知识图谱中的样本数据输入到预设的神经网络中进行训练，得到攻击向量筛选模型，包括，利用网络爬虫从NVD、 CNVD、 CNNVD漏洞库中获取历史漏洞数据以及漏洞对应的攻击向量数据；确定所述历史漏洞数据和所述攻击向量数据的字段内容；对所述历史漏洞数据和所述攻击向量数据的字段内容进行知识抽取；将抽取后的知识存入数据库并构建包含攻击向量的知识图谱；构建LSTM神经网络，所述 LSTM神经网络包括筛选层和LSTM层；从所述知识图谱中提取包括攻击向量的知识作为攻击向量样本数据输入到所述LSTM 神经网络进行训练，生成攻击向量筛选模型。 3.根据权利要求2所述的工控网络中基于机器学习的攻击向量生成方法，其特征在于：所述对所述历史漏洞数据和所述攻击向量数据的字段内容进行知识抽取，包括，对所述历史漏洞数据和所述攻击向量数据的字段内容进行实体抽取和关系抽取；所述实体抽取包括结构化数据实体抽取和非结构化数据实体抽取，通过正则匹配的方式进行所述结构化数据实体抽取，通过命名实体识别法的方式进行实体的抽取；所述关系抽取包括结构化数据关系抽取和非结构化数据关系抽取，通过实体间的关系抽取和实体的属性抽取进行结构化数据关系抽取，通过基于词向量卷积神经网络的抽取方式进行非结构化数据关系抽取。权　利　要　求　书 1/2 页 2 CN 114443863 B 24.根据权利要求1所述的工控网络中基于机器学习的攻击向量生成方法，其特征在于：所述对所述历史运行数据进行预处理，将所述历史运行数据变换成符合所述攻击向量生成模型输入条件的输入格式，生成攻击向量训练数据，包括，确定历史运行数据的字段内容，将所述历史运行数据的字段内容中字段类型、字段长度和字段顺序特征数据进行提取，得到攻击向量训练数据。 5.根据权利要求1所述的工控网络中基于机器学习的攻击向量生成方法，其特征在于：所述漏洞语言包括JavaScript、 Pytho n或XML。 6.一种工控网络中基于机器学习的攻击向量生成系统，其特征在于：包括，第一模型生成模块、第二模型生成模块、模型融合模块、协议解析模块、数据获取模块和攻击向量生成模块；所述第一模型生成模块，用于构建包含攻击向量的知识图谱，将所述知识图谱中的样本数据输入到预设的神经网络中进行训练，得到攻击向量筛选模型；所述第二模型生成模块，用于获取漏洞库中各类漏洞语言，将语言特征数据进行预处理后输入长短期记忆网络中进行训练，得到语言分析模型；所述模型融合模块，用于将所述攻击向量筛选模型和语言分析模型进行融合生成攻击向量生成模型；所述协议解析模块，用于在工控网络中预设攻击检测系统和设备检索引擎，通过所述攻击检测系统，对遭受攻击的工控设备进行记录，通过所述设备检索引擎对遭受攻击的工控设备进行检索，得到设备检索结果；对所述设备检索结果进行筛选处理，以及去除所述设备检索结果中的冗杂数据，得到受击工控设备检索结果；抽取所述受击工控设备中工控协议的协议特征；基于所述协议特征，通过机器学习将所述受击工控设备的协议数据进行分类，得到分类后协议数据；采用最长公共子序列的文本比较算法对受击工控设备的未知工控协议按照不同字段进行分割，得到分割后协议字段；将分类后协议数据与所述分割后协议字段进行匹配识别，对受击工控设备的未知工控协议进行映射还原，得到对应的工控协议；所述数据获取模块，用于根据所述受击工控设备对应的工控协议，得到所述受击工控设备的设备信息；根据所述设备信息获取所述受击工控设备的IP，根据IP向对应的受击工控设备发出数据包获取请求，得到所述受击工控设备的数据包，所述数据包中包括所述历史运行数据；所述攻击向量生成模块，对所述历史运行数据进行预处理，将所述历史运行数据变换成符合所述攻击向量生成模型输入条件的输入格式，生成攻击向量训练数据；将所述攻击向量训练数据输入所述攻击向量生成模型，生成攻击向量。权　利　要　求　书 2/2 页 3 CN 114443863 B 3

专利 工控网络中基于机器学习的攻击向量生成方法及系统

专利工控网络中基于机器学习的攻击向量生成方法及系统