客户信息:
中国移动经过多年对信息化建设的投入发展,已积累大量的存量信息化资产,一直探索如何解决原有信息化建设成果与新兴的信息化技术融合的重大问题。作为中国移动通信集团全资子公司,中移(苏州)软件技术有限公司(下称“苏研”)服务于移动集团的云计算战略,是集团在it支撑领域的重要布局。
项目情况:
本次合作将基于苏研的大规模基础设施,结合灵犀在x86服务器监控、ai智能硬件故障预测等关键技术方面的优势,双方共同建设了磁盘故障一体化项目,实现对于硬件资产的自动盘点,对于设备故障的动态感知,对于磁盘故障的提前预知和修复能力。为基础设施的智能运维提供稳定支撑。
在本次项目的实施中,linkedsee灵犀的磁盘故障预测,准确率≥93%,召回率≥93%,实现了建设服务器硬盘统一监控平台,实现全方位覆盖的硬盘监控指标、自动化的硬盘资产详情信息、分钟级别的故障诊断和定位、硬件故障智能在线修复和提前48小时故障预测。
方案详解:
(1)场景痛点
由于磁盘年故障率(afr)一般在3%-5%,带来的磁盘更换的人力投入和业务中断时长,以及对备件数量的需求,都随着磁盘规模的增多而膨胀。如何应对规模增长,但是如何解决运维人员(现场外包和自有人员)不随之线性增长的问题?另外,x86架构硬件故障种类多,需要非常专业的运维人员才能明白故障的含义,在当前人员此部分经验缺失情况下,如何才能提高故障处理效率,提高业务止损的效率?
(2)解决之道
针对本次项目中涉及到的设备,灵犀在磁盘(raid卷组侧)定义了如下故障,在agent内部进行检测和上报,同时磁盘故障的在线修复。部分可支持修复故障列表如下:
在特征工程中过程中,根据过去磁盘运维经验,对数据集中主要smart属性和故障样本相关系数分析,部分结果如下:
如上表,63%故障盘与smart_193_raw的增加正相关,类似的smart_7_rawsmart_1_normalized,smart_240_raw,smart_197_raw,smart_198_raw, smart_187_raw,smart_5_raw等属性在故障盘中正相关的比例在19%-26%之间。
通过分析数据集的在一个季度持续的时序数据的变化率特征分析,对主要smart属性在故障前若干天的变化率,以及实际值和时序预测值的偏差进行分析。在检测到变化率较大的变异点后,统计变异点到故障的天数特征。
下图为各smart属性变化点到故障时间的平均分布
基于如上分析,选取关键smart属性变化率作为影响因子。
在算法模型选择上选取了xgboost和gbdt作为模型进行训练。在对超过10万磁盘数量的近百万数据进行训练并针对近3万磁盘进行结果验证,达到了准确率≥93%,召回率≥93%的良好结果。
该项目正在进一步的大规模实施过程中。
关于linkedsee灵犀
linkedsee灵犀(北京云集智造科技有限公司),总部位于北京,成立于2015年,核心创业团队来自于百度,获得红点资本、君联资本、百度风投、中经合、华映资本和天善资本近2亿元人民币的投资,是国内最早专注于aiops智能运维领域的企业,唯一1家连续5年入围gartner推荐厂商。
公司致力于成为aiops智能运维行业的领航者,利用大数据和人工智能技术,提供云时代的全新运维博天堂备用的解决方案,帮助金融及其他政企客户持续优化其it基础设施,提高业务的可靠性、可用性及总体投资成本和运营效率。