(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221074673 6.8
(22)申请日 2022.06.29
(71)申请人 北京柏睿 数据技术股份有限公司
地址 100102 北京市朝阳区利泽西街6号院
3号楼7层701内5
(72)发明人 刘睿民
(74)专利代理 机构 北京万驰专利代理事务所
(普通合伙) 1610 6
专利代理师 郭永
(51)Int.Cl.
G06F 11/30(2006.01)
G06F 9/50(2006.01)
G06F 11/32(2006.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于人工智能运维的数据库贯穿基础设施
的故障定位方法
(57)摘要
本发明提供一种基于人工智能运维的数据
库贯穿基础设施的故障定位方法, 包括以下步
骤: 搭建智 能运维大数据分布式平台; 采集得到
IaaS基础设施层的关键性能指标向量和数据库
运行的告警信息; 进行告警根源 标注和划分告警
事务; 对CNN卷积神经网络进行训练; 实时数据故
障诊断和根因分析。 本发明提供一种基于人工智
能运维的数据库贯穿基础设施的故障定位方法,
具有以下优点: 将人工智能技术运用到数据库的
运营维护中, 贯穿数据库到基础设施IaaS层设备
的信息, 根据数据库告警信息快速进行故障定位
和根因分析。
权利要求书2页 说明书6页 附图2页
CN 114968727 A
2022.08.30
CN 114968727 A
1.一种基于人工智能运维的数据库贯穿基础设施的故障定位方法, 其特征在于, 包括
以下步骤:
步骤1, 搭建智能运维大数据分布式平台, 所述智能运维大数据分布式平台, 包括分布
式存储单元和分布式计算平台;
步骤2, 在预设定时间段内, 采集得到IaaS基础设施层的关键性能指标向量和数据库 运
行的告警信息; 其中, 每 个关键性能指标向量 为n维向量, 包括 n个关键性能指标;
步骤3, 对IaaS基础设施层的关键性能指标向量进行标准化预处理, 得到标准化处理后
的关键性能指标向量;
步骤4, 对不同时间采集的标准化处理后的关键性能指标向量和不同时间产生的告警
信息进行 联合分析, 得到引起告警信息的告警根源;
步骤5, 将一组连续时间内的告警信息划分为一个告警事务, 由此得到多个告警事务;
标注每个告警事务的告警根源; 其中, 每个告警事务的告警根源, 是告警事务对应时间段采
集到的标准 化处理后的关键性能指标向量形成的向量组合;
步骤6, 将每个告警事务所标注的告警根源作为该告警事务的标签, 以告警事务作为输
入, 以每个告警事务属于每类告警根源的概率作为输出, 对CNN卷积神经网络进行训练, 得
到训练完成的CN N卷积神经网络即为故障定位及根因分析分类模型;
步骤7, 实时数据故障诊断和根因分析:
在数据库实时运行时, 当产生告警信息时, 将连续时间内的告警信息作为一个告警事
务, 输入到故障定位及根因分析分类模 型, 输出其对应每类告警根源的概率, 获得概率最大
的告警根源, 完成数据库告警根因分析。
2.根据权利要求1所述的基于人工智能运维的数据库贯穿基础设施的故障定位方法,
其特征在于, 关键性能指标向量包括6个关键性能指标, 分别为: 服务器IP地址、 服务器CPU
占用率、 服务器内存占用率、 服务器硬盘读写速率、 服务器硬盘空间占用率和网络实时速
率。
3.根据权利要求1所述的基于人工智能运维的数据库贯穿基础设施的故障定位方法,
其特征在于, 数据库运行的告警信息包括39类, 分别为: 一般告警信息、 无数据告警、 尚未完
成的SQL语句、 连接异常、 触发动作 异常、 不支持的功能、 无效的事务启动、 定位器异常、 无效
的角色规范、 诊断异常、 违反基数、 数据异常、 违反完整性约束、 无效的游标状态、 无效的交
易状态、 无效的SQL语句名称、 触发数据更改违规、 无效的授权规范、 依赖特权描述符仍然存
在、 无效的交易 终止、 SQL例程异常、 无效的游标名称、 外部例程异常、 外部例程调用异常、 保
存点异常、 无效的目录名称、 无效的架构名称、 事务回滚、 语法错误或访问规则违规、 违反检
查选项、 资源不 足、 超出程序限制、 对象未 处于先决状态、 操作员干预、 系统错误、 快照失败、
配置文件错 误、 外部数据包 装器错误、 内部错 误告警。
4.根据权利要求1所述的基于人工智能运维的数据库贯穿基础设施的故障定位方法,
步骤3具体为:
将关键性能指标向量表示为: X(t)=(X1,X2,…,Xn), 含义为: 在采集时刻t, 采集到的关
键性能指标向量, 包括 n个关键性能指标, 分别为: X1,X2,…,Xn;
假设在预设定时间段内, 共采集得到u个关键性能指标向量, 分别为: X(t1)=(X11,
X12,…,X1n), X(t2)=(X21,X22,…,X2n),…,X(tu)=(Xu1,Xu2,…,Xun), 含义为: 在 采集时刻t1,权 利 要 求 书 1/2 页
2
CN 114968727 A
2t2…,tu, 分别采集到的关键性能指标向量;
对于关键性能指标X11, 采用以下方法进行标准化处理, 得到标准化处理后的关键性能
指标
其中:
为X11,X21,…,Xu1的均值;
σ 为X11,X21,…,Xu1的标准差;
对其他关键性能指标, 采用同样方法标准 化处理。
5.根据权利要求1所述的基于人工智能运维的数据库贯穿基础设施的故障定位方法,
步骤5具体为:
步骤5.1, 对于某个告警根源Ga, 其发生时间为sa, 消除时间为fa;
步骤5.2, 预设定x和y值;
选取告警根源Ga发生前x分钟至告警根源Ga消除后y分钟内的一组告警信息作为一个
告警事务, 即: 将[sa ‑x, fa+y]时间段内的所有 告警信息作为 一个告警事务S(1);
步骤5.3, 预先为告 警事务S(1)时间区间设定阈值y_max, T_max, 使得其满足公式(2)和
公式(3)的约束:
fa‑sa+y<y_max (2)
x+y_max<T_max (3)
步骤5.4, 若[sa, fa+y]时间段内包含有标注为其他的告警根源Gb的告警信息, 则将告
警根源Gb发生前x分钟以及告警根源Gb消除后y分钟的告警信息合并至告警事务S(1), 即:
将以下时间区间内的告警信息作为一个告警事务[sa ‑x, min(max(fa,fb)+y,sa ‑x+T_
max)]。权 利 要 求 书 2/2 页
3
CN 114968727 A
3
专利 基于人工智能运维的数据库贯穿基础设施的故障定位方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:31:14上传分享