现下,AI技术已经步入大规模应用的阶段。企业内外部系统叠加AI buff,效果往往超乎想象。在IT运维领域,AI的应用也逐步走进企业的视野,AIOps应运而生。AIOps(Artificial Intelligence for IT Operations),最早由Gartner在2017年提出,即人工智能运维,简单解释就是将人工智能技术运用于IT运维工作流程,实现自动化运维、减少故障率和降低运维成本等。
作为与系统稳定和客户体验密不可分的环节,运维工作在汇付向来备受重视。汇付已落成NOC(Network Operations Center)网络运营中心,并建立了一套完整的监控、告警、应急与预案的故障管理体系,保障系统稳定运行。
但如何让故障定位更快速?如何准确判断故障的等级和影响半径?如何迅速关联到演练预案,从而及时处置故障?种种问题仍然困扰着运维和开发人员,也意味着系统仍有优化的空间。在现有运维系统之上,汇付加入了图算法、时序算法、Dify大模型、ChatGPT、RAG(检索增强生成)等AI算法和大模型,打造了一个更高效和自动化的智能运维系统——AIOps平台。
●“智能化”故障诊断,排障快人一步
传统运维流程下,当遇到联调测试不通、系统故障时,通常需获取关联数据、整合信息,并由业务、开发、系统等多个团队的专家协同进行故障定位,效率与精度有赖于个人经验、团队配合度等因素。AIOps平台帮助运维人员穿越繁杂的告警信息“迷雾”,快速检测和智能定位故障,并进行根因分析,既减少了经验判断可能存在的误差,也节省了部分运维人力和时间成本,让故障诊断更快速、更精准。AIOps平台现已实现故障诊断5分钟完成,提升诊断效率约100%,并覆盖应用关联故障定位、资源节点故障定位等12个场景。
●提升可观测性,实现全流程“可视化”
可观测性(Observability),是IT运维领域炽手可热的概念之一,指系统或应用程序的运行状态、性能指标、日志信息等能否被监控、收集和分析。可观测性也是衡量IT运维能力的一把“尺”。AIOps平台在提升可观测性方面大有建树,且落地场景丰富,可实现全流程“可视化”。在架构迁移的场景下,支持观测网关机群迁移的情况,避免产生误操作;为提升应用程序的可用性、可扩展性和安全性,对应用程序进行拆分和多集群部署是“常规操作”。在此场景下,支持实时确认部署状态,快速规划和调整集群分配,以实现资源优化配置、故障快速恢复和系统稳定;在数据监控场景下,通过对任务状态监测和数据链路追踪,能够快速定位出错任务并及时恢复。
●故障注入,构建强大的“免疫系统”
作为一种应用测试方式,故障注入(Fault Injection, FI)如同接种“疫苗”,主动向系统或应用程序注入各类故障,模拟和复现故障场景,从而提前发现潜在风险、评估系统可靠性,增强系统“免疫力”。AIOps平台支持12类、50余种故障类型的定时注入,提供分组、分区、按应用、按百分比等多种演练方式,通过故障注入与故障诊断的“对抗演练”,逐步增强系统的抗风险能力。同时,常规化的故障注入也将训练AIOps大模型,让模型更强大,更精准地识别风险,反哺业务和系统的稳定性,助力业务应急恢复更快速。
●AI交互,智能运维助手上线
以往,当业务开发想了解系统和业务配置、查询实时状态等信息时,需要对接相应的系统负责人,耗时费力。现在,AIOps平台为所有用户打造了一个“得力”的AI运维助手,检索关键词即可快速查询和定位所需信息,让运维和开发工作事半功倍。随着大语言模型等AI技术应用的不断深入,运维助手也将增强AI交互,在不久的将来,通过动态聊天和对话,用户就能轻松获取问题诊断以及知识库问题的答案。
AIOps平台初版现已上线运行一段时间,也上交了一份高分“答卷”。期间,平台完成了3次事件快速诊断,避免严重故障的发生;32次告警事件诊断,快速及时确认告警影响范围;200次应急故障演练,验证和确保系统稳定性;同时,提升故障演练操作效率达90%。AIOps平台的上线为多个团队的日常工作提效,如帮助NOC团队快速诊断故障、为运维团队集群及容量规划提供参考、辅助业务开发团队识别风险和协助开发。AIOps平台更为系统和交易的稳定性“加码”,助力客户体验升级。
汇付始终直面AI技术带来的变革浪潮,并已在运营管理、客户服务、解决方案创新等领域试水AI应用,AIOps平台则将汇付的系统稳定性和IT运维能力推向了next level。未来,AIOps平台将持续完善和迭代,深度融合AI技术,强化与业务场景的连接,创造更大的价值。