匯付AIOps平臺上線,運維效能進入Next Level
現(xiàn)下,AI技術已經(jīng)步入大規(guī)模應用的階段。企業(yè)內(nèi)外部系統(tǒng)疊加AI buff,效果往往超乎想象。在IT運維領域,AI的應用也逐步走進企業(yè)的視野,AIOps應運而生。AIOps(Artificial Intelligence for IT Operations),最早由Gartner在2017年提出,即人工智能運維,簡單解釋就是將人工智能技術運用于IT運維工作流程,實現(xiàn)自動化運維、減少故障率和降低運維成本等。
作為與系統(tǒng)穩(wěn)定和客戶體驗密不可分的環(huán)節(jié),運維工作在匯付向來備受重視。匯付已落成NOC(Network Operations Center)網(wǎng)絡運營中心,并建立了一套完整的監(jiān)控、告警、應急與預案的故障管理體系,保障系統(tǒng)穩(wěn)定運行。
但如何讓故障定位更快速?如何準確判斷故障的等級和影響半徑?如何迅速關聯(lián)到演練預案,從而及時處置故障?種種問題仍然困擾著運維和開發(fā)人員,也意味著系統(tǒng)仍有優(yōu)化的空間。在現(xiàn)有運維系統(tǒng)之上,匯付加入了圖算法、時序算法、Dify大模型、ChatGPT、RAG(檢索增強生成)等AI算法和大模型,打造了一個更高效和自動化的智能運維系統(tǒng)——AIOps平臺。
●“智能化”故障診斷,排障快人一步
傳統(tǒng)運維流程下,當遇到聯(lián)調(diào)測試不通、系統(tǒng)故障時,通常需獲取關聯(lián)數(shù)據(jù)、整合信息,并由業(yè)務、開發(fā)、系統(tǒng)等多個團隊的專家協(xié)同進行故障定位,效率與精度有賴于個人經(jīng)驗、團隊配合度等因素。AIOps平臺幫助運維人員穿越繁雜的告警信息“迷霧”,快速檢測和智能定位故障,并進行根因分析,既減少了經(jīng)驗判斷可能存在的誤差,也節(jié)省了部分運維人力和時間成本,讓故障診斷更快速、更精準。AIOps平臺現(xiàn)已實現(xiàn)故障診斷5分鐘完成,提升診斷效率約100%,并覆蓋應用關聯(lián)故障定位、資源節(jié)點故障定位等12個場景。
●提升可觀測性,實現(xiàn)全流程“可視化”
可觀測性(Observability),是IT運維領域熾手可熱的概念之一,指系統(tǒng)或應用程序的運行狀態(tài)、性能指標、日志信息等能否被監(jiān)控、收集和分析??捎^測性也是衡量IT運維能力的一把“尺”。AIOps平臺在提升可觀測性方面大有建樹,且落地場景豐富,可實現(xiàn)全流程“可視化”。在架構遷移的場景下,支持觀測網(wǎng)關機群遷移的情況,避免產(chǎn)生誤操作;為提升應用程序的可用性、可擴展性和安全性,對應用程序進行拆分和多集群部署是“常規(guī)操作”。在此場景下,支持實時確認部署狀態(tài),快速規(guī)劃和調(diào)整集群分配,以實現(xiàn)資源優(yōu)化配置、故障快速恢復和系統(tǒng)穩(wěn)定;在數(shù)據(jù)監(jiān)控場景下,通過對任務狀態(tài)監(jiān)測和數(shù)據(jù)鏈路追蹤,能夠快速定位出錯任務并及時恢復。
●故障注入,構建強大的“免疫系統(tǒng)”
作為一種應用測試方式,故障注入(Fault Injection, FI)如同接種“疫苗”,主動向系統(tǒng)或應用程序注入各類故障,模擬和復現(xiàn)故障場景,從而提前發(fā)現(xiàn)潛在風險、評估系統(tǒng)可靠性,增強系統(tǒng)“免疫力”。AIOps平臺支持12類、50余種故障類型的定時注入,提供分組、分區(qū)、按應用、按百分比等多種演練方式,通過故障注入與故障診斷的“對抗演練”,逐步增強系統(tǒng)的抗風險能力。同時,常規(guī)化的故障注入也將訓練AIOps大模型,讓模型更強大,更精準地識別風險,反哺業(yè)務和系統(tǒng)的穩(wěn)定性,助力業(yè)務應急恢復更快速。
●AI交互,智能運維助手上線
以往,當業(yè)務開發(fā)想了解系統(tǒng)和業(yè)務配置、查詢實時狀態(tài)等信息時,需要對接相應的系統(tǒng)負責人,耗時費力。現(xiàn)在,AIOps平臺為所有用戶打造了一個“得力”的AI運維助手,檢索關鍵詞即可快速查詢和定位所需信息,讓運維和開發(fā)工作事半功倍。隨著大語言模型等AI技術應用的不斷深入,運維助手也將增強AI交互,在不久的將來,通過動態(tài)聊天和對話,用戶就能輕松獲取問題診斷以及知識庫問題的答案。
AIOps平臺初版現(xiàn)已上線運行一段時間,也上交了一份高分“答卷”。期間,平臺完成了3次事件快速診斷,避免嚴重故障的發(fā)生;32次告警事件診斷,快速及時確認告警影響范圍;200次應急故障演練,驗證和確保系統(tǒng)穩(wěn)定性;同時,提升故障演練操作效率達90%。AIOps平臺的上線為多個團隊的日常工作提效,如幫助NOC團隊快速診斷故障、為運維團隊集群及容量規(guī)劃提供參考、輔助業(yè)務開發(fā)團隊識別風險和協(xié)助開發(fā)。AIOps平臺更為系統(tǒng)和交易的穩(wěn)定性“加碼”,助力客戶體驗升級。
匯付始終直面AI技術帶來的變革浪潮,并已在運營管理、客戶服務、解決方案創(chuàng)新等領域試水AI應用,AIOps平臺則將匯付的系統(tǒng)穩(wěn)定性和IT運維能力推向了next level。未來,AIOps平臺將持續(xù)完善和迭代,深度融合AI技術,強化與業(yè)務場景的連接,創(chuàng)造更大的價值。