嘉為藍鯨WeOps賦能堅美鋁業(yè)IT管理,推動制造業(yè)數字化發(fā)展
佛山堅美鋁業(yè),是廣東堅美鋁型材廠(集團)旗下企業(yè),是全國鋁型材行業(yè)的引領者之一。堅美鋁業(yè)集團年生產能力60萬噸以上,鋁材產品銷售覆蓋全國30+省市,遠銷全球70+國家和地區(qū),品牌價值達112.17億元。
近年來,面對全球新冠疫情危機以及嚴峻復雜的國內外環(huán)境,傳統(tǒng)鋁型材制造業(yè)遭遇到了嚴峻挑戰(zhàn),但是作為南海區(qū)制造業(yè)的引領者,堅美鋁業(yè)積極響應《廣東省佛山市落實推動制造業(yè)數字化智能化轉型發(fā)展》的政策號召,攻堅克難,加大對升級建設自動化生產基地的投入,擴大產能,保持企業(yè)良好的增長勢頭。
伴隨著業(yè)務的蓬勃發(fā)展,應用系統(tǒng)及后臺服務器數量成倍增加,應用架構越來越復雜,新技術帶來的運維門檻越來越高。堅美鋁業(yè)前期已建設零星的運維工具,如zstack自帶監(jiān)控、H3C(網管系統(tǒng))等,相對分散,能力不夠全面,對運維帶來幫助如杯水車薪,運維困境日益凸顯:
監(jiān)控告警工具會產生大量無效告警,缺少有效手段收斂告警風暴,而且未能實現運維的聯動,缺少配置-監(jiān)控告警-工單-自動處理-告警自動關閉的故障閉環(huán)管理能力;
已有的運維工具屬于豎井式建設,數據打通及聯動困難,無法借助工具進一步提升運維運營服務能力,難以滿足不斷增長的業(yè)務系統(tǒng)運維需求;
缺少自動化運維工具,在巡檢、資源交付、補丁管理等重復性較多的工作上,仍需要消耗大量的時間;
運維數據分散在各個工具系統(tǒng),無法統(tǒng)一進行可視化展示、統(tǒng)計和分析,運維服務無法持續(xù)度量和優(yōu)化。
如何快速提升運維管理水平,以更好地保障業(yè)務系統(tǒng)穩(wěn)定運行,是堅美鋁業(yè)IT部門迫切需要解決的問題。IT部門負責人曹部長高瞻遠矚,希望通過引進先進的技術和理念,基于一體化運維平臺數據打通、擴展性強等特性,將線下的運維工作不斷移植固化到平臺上來,實現對同行業(yè)IT管理的彎道超車。
佛山堅美鋁業(yè)基于一體化運維平臺,實現IT資源對象可視、可控、可管的建設目標:
建立故障全生命周期的管理體系:提供覆蓋資源管理、監(jiān)控告警、健康巡檢、故障自愈等多項功能為一體的運維平臺,以故障定位和全生命周期管理為核心,持續(xù)保障公司業(yè)務連續(xù)性。
構建統(tǒng)一的告警中心,避免告警潮汐:接入zstack和H3C(網管系統(tǒng))的告警信息到WeOps平臺,實現告警統(tǒng)一展現,支持對告警進行收斂,避免告警潮汐。
構建主動服務能力,降低故障發(fā)生,提高系統(tǒng)穩(wěn)定性:利用平臺的健康掃描能力,可以定時自動對公司業(yè)務應用及IT資源進行健康掃描,提前發(fā)現系統(tǒng)性能故障及安全隱患,避免故障發(fā)生,提升業(yè)務應用運行的穩(wěn)定性。
構建自動化運維能力,提升IT部運維工作效率:平臺自帶數十個自動化運維腳本,可解決常規(guī)運維問題,提高運維效率;也支持用戶通過作業(yè)平臺+標準運維,實現自動化腳本工具的自主開發(fā);同時具備自動補丁安裝能力,可以實現服務器補丁的批量安裝,緩解運維壓力。
構建可視化運維管理體系,隨時掌握核心業(yè)務及應用運行狀態(tài):通過平臺可實現資源狀態(tài)大屏、應用墻、核心應用大屏等可視化大屏,可以實現公司整體資源運行健康狀態(tài)、應用運行健康狀態(tài),實現運維的可視化。
經過層層篩選,堅美鋁業(yè)最終采用嘉為藍鯨WeOps一體化運維平臺,依托于“騰訊藍鯨Paas平臺先進技術支撐”和“嘉為20+年運維實踐經驗”得天獨厚的優(yōu)勢,幫助企業(yè)加快實現IT系統(tǒng)轉型升級。
從前期的項目需求調研,技術方案設計,到平臺的部署配置,再到平臺功能的上線試運行,整體實施過程控制在2個月內完成,這得益于WeOps產品的資源管理、健康掃描、監(jiān)控告警、數字大屏、知識庫及自動化運維工具等模塊功能開箱即用程度高,內置豐富的運維場景,一鍵啟用。
目前,WeOps納管了數百臺服務器,覆蓋數十套業(yè)務系統(tǒng),通過模塊功能之間相互聯動,圍繞故障全生命周期形成運維閉環(huán)管理。
高效管理IT資產:WeOps自動生成發(fā)現采集和架構拓撲,覆蓋了堅美鋁業(yè)主機、基礎軟件等各個運維層面數十種IT對象,數百個IT資源;同時具有良好的擴展性,支持了第三方數據源的集成對接。
以往堅美鋁業(yè)信息部門的資產管理,是每位管理員依靠Excel表記錄各自負責的IT資產配置信息,并無統(tǒng)一匯總資源管理,這導致IT數據分散,信息準確率低、數據維護工作量大。WeOps上線使用后,CMDB實現從無到有的突破,運維人員告別手動操作,資產更新實現80%自動化,資產數據準確性提升5倍;并且每月可節(jié)約超過1天的人工維護成本,運維人員輕松應對半年度的資產盤點,可以花更多的時間精力在業(yè)務系統(tǒng)優(yōu)化和建設上。
全方位監(jiān)控告警:WeOps靈活自定義監(jiān)控儀表盤,涵蓋健康掃描,及時感知故障。
依托事件中心的聚類、抑制、收斂及屏蔽等告警算法,精準告警,避免告警潮汐。
堅美鋁業(yè)以往沒有一套一體化運維平臺來幫助監(jiān)控告警,故障排查,因此運維人員只能通過人工巡檢排查,難以快速定位故障原因,來不及修復bug,影響了業(yè)務的正常運行。8月下旬WeOps正式上線,經過一周的密切觀察后,重新調整了告警策略,對生產存在的故障和隱患進行了集中處理,9月系統(tǒng)穩(wěn)定運行。
總結WeOps近2個月的投產情況:監(jiān)控的覆蓋率提升190%,故障及時發(fā)現率提升220%,平均故障處理時長縮短72%,預計每年因故障影響業(yè)務運行狀態(tài)的時間可減少72小時。
運維數據可視化、數字化:數據大屏動態(tài)匯總全局狀態(tài),運維全局一目了然,管理人員能直觀審視業(yè)務運營與IT運維中的有效信息,提升IT管理的效能。
通過WeOps建設,嘉為科技成功助力堅美鋁業(yè)業(yè)務實現可視、可管、可控,未來也將和堅美鋁業(yè)持續(xù)合作生長,共同為鋁型材生產業(yè)務注入科技動力,繪制制造業(yè)數字化藍圖!