首页 » 软件优化 » 吉林农信:面向海量异构运维数据的智能化驾驶舱平台建设实践项目(数据驾驶舱业务智能化告警)

吉林农信:面向海量异构运维数据的智能化驾驶舱平台建设实践项目(数据驾驶舱业务智能化告警)

乖囧猫 2024-10-23 09:52:21 0

扫一扫用手机浏览

文章目录 [+]

获奖单位:吉林农信

荣获奖项:运维管理创新优秀案例

一、项目背景

吉林农信:面向海量异构运维数据的智能化驾驶舱平台建设实践项目(数据驾驶舱业务智能化告警) 软件优化
(图片来自网络侵删)

在数字化转型共识下,科技创新技术日渐成为加快构建信息化体系发展的动力引擎。
二十大报告明确提出:“加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。
”面对国家数字经济赋能发展新要求,数字化、智能化运维发展需要,将统筹协调集团各部门资源,集中多元化业务服务、提升运维智能化管理能力,推动运维数字化向智能化推演,强力赋能业务发展,构筑数字化运营服务新模式。

2021年之前,我社根据运维现状及同业建设经验,按需建设了业务交易监控系统、智能算法分析系统、资产配置管理系统等,实现了业务运行监控中的异常数据采集、告警、分析能力。
但随着业务规模急速增长,呈现IT架构复杂化、业务服务多样化、问题综合化的特点,通过选取重点业务系统运营过程进行细致化分析,总结亟待解决运维过程面临的如下问题:

1)运维按需建设导致了监控工具分散、运维数据的割裂,无法快速关联运行对象间关系,标准化分析过程,准确定位故障根因,运维服务效率、业务运维满意度还需持续加强。

2)运维数据治理管控难度大,呈现多源化、异构化、海量化、多层化、实时化的特点,运维对象间关系类型多,关系链长且模式复杂,缺乏统一的数据管理能力。

3)运维数据价值挖掘场景相对复杂,业务运行状态缺乏全局可视化地图,无法从管理视角直观审视业务运营与IT运维中的有效信息,缺乏高效、精确和可持续的运营管理机制,提升管理效率与有效决策。

二、项目方案

为了解决数字化运维过程中遇到“问题分析难,根因定位难,故障预测难,数据治理难、容量管理难、数据展现难”等痛点,我社以“统一化、规范化、图谱化、智能化”为建设目标,以“OneDate,OneService”为建设方法论,以“数据驱动运维”为建设理念,用数据说话,用数据决策,拟打造一个符合吉林农信数字化转型所需的运维智能化驾驶舱平台,建设过程分为四个阶段:

第一阶段是“摸家底,建地基”,基于吉林农信现有运维工具体系建设情况,摸排运维数据资产,夯实基础,基于要实现的运维数字化、智能化场景,梳理运维数据分析所涉及的监控、日志、性能、配置、流程、应用运维6类数据存储情况,工具或平台架构、数据结构、数据实时性、数据完整性、数据正确性、数据标准化程度等方案,初步打通“竖井式”建设的数据壁垒,初步完成数据“统一化”。

第二阶段是“建标准,强管控”,围绕运维数据,从管理和实践的视角,对数据进行标准化、立体化、层次化建模,建立全局的IT运维监控和管理指标体系,以及数据质量持续改进机制,数据管控的流程、机制、标准、安全体系,驱动数据资产化,资产配置规范化,数据分析标准化。

第三阶段是“理业务,重聚焦”,从业务系统视角出发,整合所有不同来源的各类数据,借助CMDB进行核心资源管理和关联,提供可视化的分析手段,实现系统、应用内部状态和行为的可见性,可更深入地洞察复杂系统、应用,以便运维过程通过追踪相关性,确定问题的根本原因,助力快速解决问题。

第四阶段是“深洞察,促智能”,利用成熟的大数据、智能算法、智能决策分析、机器学习等技术,挖掘运维数据的价值,建立数据与业务间的双向“连接”关系,发现业务价值,为运行工作提供决策信息,为吉林农信的数字化转型赋能,实现运维数字化向智能化转变。

三、创新点

1、聚焦“多源化+多层化+多样化”业务图谱,实现运维思路转型

(1)业务全局总览视角

以全行业务系统视角,显示业务系统关系,且可直观看到各业务系统的健康度。
对于我社的交易、开户、委托等业务场景,具备对故障的全链路故障追踪能力,通过全局总览图下钻,可从系统、资源维度观测整个交易链路运行情况,串联日志、事件、资源关系、变更信息,以事件为维度,汇聚多维数据进行立体化展示,辅助快速决策。

(2)业务可视化驾驶舱

通过对多维指标综合性分析与计算,构建系统运行健康度,对整体业务监控度的态势感知,运用颜色变化展示系统业务处理能力,包括业务交易量、成功率、响应率、平均响应时间,及时反馈系统运营情况和业务趋势,提高监控管理过程域的整体能力,

业务系统运行监控驾驶舱(应用墙)

业务系统监控列表

(3)业务系统链路追踪

以业务系统为视角,展示业务系统之间调用关系,调用链路追踪提供了完整的调用链路还原、链路拓扑、请求量统计、关系依赖分析等能力,利用调用链路的模型进行监控,得到业务请求的系统间调用链路拓扑图,更好地监控业务调用状态及健康度,快速实现故障定位,优化业务性能瓶颈。

场景化链路追踪展示(二选一)

(4)系统资源层级拓扑

以系统资源为视角,展示系统资源之间关系,资源之间层级关系,以系统资源维度显示系统资源健康情况,系统资源指标情况,出现故障时资源颜色渲染,快速识别故障点,串联事件、资源关系、变更信息,以事件为维度,按照系统层级进行立体化展示,辅助快速决策。

(5)交易逐笔明细分析

交易分析可分析单个系统不同交易类型交易笔数、交易占比、交易成功率、每个交易类型详细交易流水等,或根据交易流水分析当前交易流经系统链路,流经服务链路、流经主机个数等信息。
通过系统拓扑可查看当前交易系统故障节点,同时可查看系统内服务故障点,同时可通过堆栈、日志、长耗时等进行深层次服务故障定位。

业务分析

交易分析

2、建立面向海量异构运维数据的管控体系,挖掘数据潜在价值

打通各工具平台之间的数据壁垒,基于获取CMDB管理的模型及对象的层级关系,梳理各层业务、应用的关键指标,贴合业务的运维支撑,为不同系统、项目制定统一的监控评价标准,构建面向对象的指标管理体系以及运维数据生命周期管理机制,为全栈可观测性提供可信赖的数据源。

指标看板

指标仓库

指标分析

3、丰富驾驶舱“智慧大脑”,构筑数字化运维服务新模式

在构建的多样化业务图谱基础上,通过引入智能算法,将运维经验积累与运用方面展开探索,为现有运维管理赋予智能化数据分析能力。
目前项目上在日志模式异常监控、风险预测、告警降噪等运维场景进行了尝试,后续可持续开展关联分析、根因推荐、智能定级等场景,为运维工作提供更高效的决策信息,缩短问题发现和故障排查的时长(MTTR),提升检测的准确率,提升运维管理效率,助力运维智能化转型。

(1)日志模式异常监控

日志模式识别,历史发生过的问题通过日志关键字告警进行识别,未发生过的问题在海量的日志中无法快速快速定位,通过学习历史日志信息,对日志按照固定模式聚合,对日志中突增信息、突降信息、历史突增信息展示告警,用户可以使用该列表查看日志异常情况,并通过告警列表的信息分析系统异常情况。

时段突增异常识别

图形化展示故障点

(2)风险预测场景

针对磁盘空闲空间指标的历史数据进行训练,通过算法能力提取特征学习历史数据中普遍存在的规律,测算磁盘空间未来一段时期的发展变化,为资源规划、容量预测等上层业务提供预先风险识别能力。

(3)告警智能降噪

运维驾驶舱已采集纳管10套运维监控系统告警数据,面对纷繁芜杂的告警消息,系统通过将一定时间窗口内的多个警报按照时间,空间或者语义上的相关性聚合成有价值性、可处理的单个事件,将算法模型应用到实时告警事件过程中,达到告警降噪的效果。
从而保证运维人员获得充足信息的情况下,减少运维人员在面对告警风暴时的信息压力。
并按照架构层级区分应用告警、中间件告警、数据库告警、主机告警、网络告警等,实现了全行统一告警处置通知机制。

四、技术实现特点及优势

1、数据处理低代码能力

数据清洗引擎采用自主研发的分布式ETL引擎,可以根据所需处理的数据量,扩容处理集群;此外,系统内置42种数据清洗组件,支持绝大多数运维数据清洗场景,用户通过低代码和模块化方式即可管理自己的数据处理任务,还可实时读取样例数据进行ETL任务配置正确性的验证,非常便捷高效。

2、先进化运维管理理念

随着信息技术的不断发展和企业数字化转型的加速推进,运维角色也在不断发生转变。
不仅要关注基础设施的稳定性,更要关注整个业务的稳定和可靠性。

本项目搭建的智能化驾驶舱平台采用先进、成熟技术,融合业务运维管理理念,采用ArangoDb图形化构建资源对象间关联关系,Clickhouse进行指标、日志数据存储,能够确保不同数据在IO和压缩比上获得平衡,降低运维人员维护压力。
以满足使用作为业务运营者,搭建业务维度的IT资源层级,业务全链路追踪图谱,为业务的稳定和发展提供有力支持。

3、系统柔性架构设计

智能化驾驶舱平台具备功能自行组合、定义菜单和自定义菜单Tap功能,满足横向和纵向运维人员的监控、分析需求。
对于需要特殊关注的资源,可单独建立菜单或tap进行监控分析,为不同的用户提供“个性化”的监控视角。

五、项目过程管理

面向海量异构运维数据的智能化驾驶舱平台建设与实践项目由科技中心负责牵头及实施,采用试点实施和推广的分阶段方式,主要经历了以下几个阶段:

1、项目启动

此阶段时间为2022年10月,项目启动阶段主要工作内容:包括制定工作说明书、签订合同、组建项目组、召开项目启动会等工作。

2、项目调研

此阶段时间段为2022年11月至2022年12月,需求调研,调研当前痛点、及遇到问题,系统总体部署架构等,其间主要完成了需求调研分析、业务需求分析、业务功能和技术构架设计;提交了项目解决方案、需求分析说明书、非功能需求说明书、各功能模块的概要设计、技术构架设计和接口设设计等文档。

3、项目设计

此阶段起始时间为2023年01月至2023年02月,其间主要完成了系统详细设计工作,提交了系统接入范围、系统详细设计说明书、硬件部署架构规划方案、信息系统安全设计报告等文档。

4、项目实施

此阶段起始时间为2023年02月至2023年04月,其间完成了系统开发的编码、测试以及试点行上线准备工作,提交了源码、系统测试报告、上线方案、上线操作手册、回退方案等文档。

5、试点上线

此阶段起始时间为2023年04月至2023年05月,其间完成了5套重保系统日志上线,运维中心各处室日常运维工作看板监控配置上线,并根据试点行上线试运行的情况,为推广实施提出了优化需求。

6、推广实施

此阶段起始时间为2023年06月至2023年07月,对除试点系统外的贷记卡前置、金融IC卡前置、电子渠道综合前置、加密平台、网上跨行支付清算分批推广上线,并对全行重保系统配置交易监控可视化展示,项目实施严格按照总行项目管理相关制度,从计划、质量、财务等多方面进行规范化管理,项目最终如期完成。

六、运营情况

智能化驾驶舱平台自2023年04月上线,完成接入应用交易监控,业务性能监控,自动化巡检系统,资产配置管理系统、基础监控工具等10套运维监控管理系统,覆盖指标、日志、告警、配置、流程数据等410个数据采集通道,提供了不同类型运维数据纳管、关联分析能力。
系统单日可达到5T数据量的接入,清洗、数据加工存储后近800G,实现了117项监控指标接入;10个业务系统日志采集,178类日志规模;351类资产模型,纳管45万的数据资产;形成全行统一告警处置通知机制。

智能化驾驶舱平台为6个部室,200人运维团队提供自定义、可视化监控拓扑能力,本期已接入重保系统9套,开发35个场景化监控拓扑,包含核心系统、信贷系统、电子渠道平台、支付结算、贷记卡前置等关键系统。
在确保试点系统运行成功基础上,后续将扩大业务运维覆盖范围,可逐步实现我社130套业务系统,2000多台主机的常态化运行“一体化,图谱化、可视化”监控工作,提升我社运维效能和管理水平。

单日数据采集可视化

业务场景化监控拓扑

交易拓扑监控

七、项目成效

本项目通过构建先进化、智能化运维监控体系,可预先发现业务提供潜在风险,并结合运维数据打通融合思路,形成业务系统、应用内部状态和行为的可见性综合分析能力,达到运维问题早发现、早解决的目标,为我行业务平台稳定运行提供技术服务与保障,全面提升业务平台稳定运行保障能力。

1、运维指标体系建立

面向运维的各类应用场景,围绕运维数据,从管理和实践的视角,建立全局的IT运维监控和管理指标体系。
项目通过对接10套运维监控管理系统,覆盖指标、日志、告警、配置、流程等多类型数据,通过维度、分类分层、运维指标关系、评估、属性及建模等方面设计,建立了从业务到IT各层的分层模型。

2、故障防御能力升级

指标预测在运维领域里有丰富的应用场景,可通过基础监控资源(比如磁盘使用量、CPU、内存使用)的预测,业务量(如银行交易量、银行跑批时间等)的预测,实现故障防御能力升级的效果。

本项目通过对核心等关键系统的业务交易日志数据,按分钟统计业务交易总量,业务成功率,业务调用平均时长以及业务操作时间序列,进行指标数据分析,建立高精准度预测分析模型。
通过利用模型算法实现未来1天的指标趋势预测,同时基于预警机制,将日常、节假日等预测的异常区间进行提前预警,可有效避免业务交易异常的发生。

3、故障处理效率提升

通过智能化驾驶舱平台,首先在保证100%准确度基础,可对多源多样化告警进行压缩,压缩比可达70%,大幅减少运维人员在面对告警风暴时的信息压力,助力定位发现核心问题,提升告警识别效率。

其次,针对告警信息,系统可提供多维化的分析视图,通过系统内外部状态和行为的可见性分析,告警与指标的趋势分析,日志分析,全方位的可视化追踪分析下钻能力,实现可视化快速分析定位运维问题,做到可度量可观测。
从而减少问题发现和故障排查的时长(MTTR),提升故障处理效率,达成10分发现定位问题,15分钟分析与解决的运维监控目标。

八、经验总结

智能化驾驶舱系统通过打通“竖井式”的数据壁垒,建立运维数据统一标准,集中数据采集、数据清洗、特征加工、规则模型、顶层场景的设计,把运维对象所涉及的监控、日志、性能、配置、流程、应用运维等数据系统化、层级化关联,构建业务数字化“地图”的能力。

其中数据质量问题是影响数据分析场景可用性的直接因素,也是项目建设的关键环节。
本项目通过建立运维数据管理体系,从组织、流程、技术维度建立三位一体的运维数据治理办法,对数据源众多,数据结构差异,标准不一致等问题进行了系统化设计,形成具有通用性又具我社属性特征的指标管理标准,为海量、高速的运维数据管理提供抓手,形成数据质量闭环管理制度,全面提升运维数据“完整性、一致性、准确性、唯一性、关联性、及时性”。

更多金融科技案例和金融数据智能优秀解决方案,请登录数字金融创新知识服务平台-金科创新社案例库、选型库查看。

标签:

相关文章