來源:2025年度農(nóng)村金融機構(gòu)科技創(chuàng)新優(yōu)秀案例評選
獲獎單位:內(nèi)蒙古農(nóng)商銀行
榮獲獎項:運維管理創(chuàng)新優(yōu)秀案例
一、項目背景及目標(biāo)
為深入貫徹中央經(jīng)濟(jì)工作會議精神和《銀行業(yè)保險業(yè)科技金融高質(zhì)量發(fā)展實施方案》相關(guān)要求,內(nèi)蒙古農(nóng)商銀行積極推進(jìn)科技金融服務(wù)體制、產(chǎn)品體系和專業(yè)能力建設(shè)。面對傳統(tǒng)運維模式中人工依賴度高、響應(yīng)滯后、數(shù)據(jù)分散等問題,我行以“降本增效、風(fēng)險前置、能力沉淀”為核心目標(biāo),系統(tǒng)推進(jìn)智能化運維轉(zhuǎn)型。通過加強數(shù)據(jù)治理、引入算法賦能、推動場景落地,逐步構(gòu)建起覆蓋“感知—分析—決策—處置”全鏈路的智能運維體系,實現(xiàn)運維模式由“人工驅(qū)動”向“數(shù)據(jù)驅(qū)動”和“智能驅(qū)動”的轉(zhuǎn)變,顯著提升系統(tǒng)穩(wěn)定性與運維效率,為全行鄉(xiāng)村振興金融服務(wù)提供堅實可靠的科技支撐。
二、創(chuàng)新點
(1)多源數(shù)據(jù)整合,打通“信息孤島”。整合業(yè)務(wù)、鏈路、基礎(chǔ)資源及日志等分散于各系統(tǒng)的運維數(shù)據(jù),構(gòu)建完整系統(tǒng)調(diào)用鏈;當(dāng)鏈路上某系統(tǒng)出現(xiàn)故障時,可快速定位故障節(jié)點,切實實現(xiàn)全行信息系統(tǒng)的精準(zhǔn)運維。
(2)智能輔助決策,實現(xiàn)運維效率提升。借助大語言模型的強大分析與整合能力,從故障知識庫檢索相似案例,可初步定位故障節(jié)點、同步輸出建議解決方案并生成故障分析報告,大幅縮短故障定位與解決耗時,顯著提升運維效率。
(3)移動端運維,打破時間和空間限制。通過手機APP即可實時查看系統(tǒng)運行狀態(tài)、對比歷史數(shù)據(jù),接收異常與故障告警,還能執(zhí)行簡單故障修復(fù)腳本。此舉打破操作間運維限制,既縮短故障響應(yīng)時間,也進(jìn)一步強化系統(tǒng)運行保障。
三、項目技術(shù)方案
智能運維統(tǒng)一管理平臺充分整合全行現(xiàn)有資源,圍繞“數(shù)據(jù)筑基—算法賦能—場景落地”的遞進(jìn)式轉(zhuǎn)型路徑,重點針對“數(shù)據(jù)不通、模型不精、場景不深”三大核心痛點進(jìn)行系統(tǒng)化突破。平臺構(gòu)建了從底層數(shù)據(jù)采集與治理、異常指標(biāo)自動識別,到故障告警與根因定位的全流程自動化機制,顯著降低了運維成本,提升了響應(yīng)效率,有效保障了系統(tǒng)穩(wěn)定運行與業(yè)務(wù)連續(xù)性。
1.平臺架構(gòu)
智能運維統(tǒng)一管理平臺圍繞數(shù)據(jù)治理與落地、異常檢測、故障告警與根因定位三大核心功能板塊構(gòu)建,三者層層遞進(jìn)、緊密銜接,共同支撐智能化運維體系的有效運轉(zhuǎn)。數(shù)據(jù)作為智能化運維的基礎(chǔ),全面反映系統(tǒng)運行狀態(tài),是運維成效的根本保障;異常檢測模塊能夠及時識別系統(tǒng)異常,為故障排查提供關(guān)鍵切入點;根因定位功能則進(jìn)一步明確問題源頭,為運維人員提供清晰的處理方向,全面提升故障響應(yīng)與處置效率。
![]()
2.數(shù)據(jù)治理與指標(biāo)入庫
智能運維統(tǒng)一管理平臺通過構(gòu)建統(tǒng)一數(shù)據(jù)基座,實現(xiàn)了對多源運維數(shù)據(jù)的有效整合與標(biāo)準(zhǔn)化管理。平臺整合了業(yè)務(wù)數(shù)據(jù)、鏈路數(shù)據(jù)、日志數(shù)據(jù)以及基礎(chǔ)資源數(shù)據(jù),通過標(biāo)準(zhǔn)化腳本、統(tǒng)一日志平臺對系統(tǒng)進(jìn)行指標(biāo)采集,采集周期為30秒,并借助鏈路追蹤工具實現(xiàn)交易全流程的可視化。同時,通過制定數(shù)據(jù)指標(biāo)規(guī)范、清理冗余數(shù)據(jù)和建立閉環(huán)管理流程,確保了數(shù)據(jù)質(zhì)量與合規(guī)性。
![]()
為實現(xiàn)對所有系統(tǒng)主機的統(tǒng)一管理與調(diào)度,項目部署了自動化巡檢平臺,采用“服務(wù)端-客戶端”分布式架構(gòu)。服務(wù)端部署于專用巡檢機,負(fù)責(zé)任務(wù)調(diào)度與數(shù)據(jù)匯總;客戶端分布于各系統(tǒng)主機,承擔(dān)指標(biāo)采集任務(wù)。平臺通過預(yù)設(shè)任務(wù)自動調(diào)用在巡檢機部署的腳本、日志平臺和鏈路追蹤工具,實時獲取系統(tǒng)運行指標(biāo)并反饋至巡檢機,形成初步數(shù)據(jù)集合。隨后,系統(tǒng)對數(shù)據(jù)進(jìn)行字段解析與格式標(biāo)準(zhǔn)化,確保與數(shù)據(jù)庫結(jié)構(gòu)一致,并通過自動執(zhí)行SQL語句完成數(shù)據(jù)入庫,實現(xiàn)從采集到存儲的全流程自動化,為后續(xù)運維分析提供可靠數(shù)據(jù)基礎(chǔ)。同時,通過統(tǒng)一管理與調(diào)度,僅需一臺巡檢機即可完成所有業(yè)務(wù)系統(tǒng)的指標(biāo)收集,無需針對應(yīng)用系統(tǒng)、基礎(chǔ)資源等分別監(jiān)測,提升了系統(tǒng)資源利用率。
3.異常檢測
異常檢測通過“孤立森林+LSTM”混合算法實現(xiàn),先利用孤立森林快速識別CPU突高、磁盤IO中斷、交易耗時激增等突發(fā)性離群異常,再通過LSTM分析時序數(shù)據(jù)捕捉交易響應(yīng)時間攀升、內(nèi)存持續(xù)超占等趨勢性異常,雙重校驗降低誤報率;同時以全行歷史運維數(shù)據(jù)為基礎(chǔ),訓(xùn)練覆蓋基礎(chǔ)資源、鏈路性能、業(yè)務(wù)關(guān)聯(lián)三大維度的核心指標(biāo)模型,確保異常識別準(zhǔn)確率達(dá)90%以上。
此前,系統(tǒng)指標(biāo)異常后需5分鐘才能收到告警短信;啟用智能化運維平臺后,1分鐘內(nèi)即可觸發(fā)告警。此外,模型部署可實時監(jiān)測指標(biāo)波動,并提前10分鐘預(yù)警;預(yù)警觸發(fā)時,還能自動調(diào)取相關(guān)日志與鏈路數(shù)據(jù),輔助工作人員快速排查問題。
4.根因定位
根因定位以“快速鎖定故障源頭、縮短處置周期”為核心,通過 “知識庫支撐+大模型賦能+自動化處置”實現(xiàn)高效運維。運維人員基于歷史故障處理經(jīng)驗、現(xiàn)有運維操作手冊,搭建系統(tǒng)故障運維知識庫;平臺則調(diào)用大語言模型的強分析與歸納整合能力,結(jié)合異常檢測模塊自動調(diào)取的日志、鏈路數(shù)據(jù),在知識庫中精準(zhǔn)檢索匹配案例,初步給出可能的故障節(jié)點,同步輸出建議解決方案供運維人員參考,并自動生成包含異常時間、影響范圍、初步根因的故障分析報告。若知識庫無同類案例,系統(tǒng)會自動新建事件案例并補充入庫,持續(xù)豐富知識儲備。
針對服務(wù)重啟、網(wǎng)絡(luò)重連等高頻簡單故障,平臺在獲取運維人員確認(rèn)后,可直接執(zhí)行預(yù)設(shè)修復(fù)腳本,實現(xiàn)故障快速自愈;在業(yè)務(wù)高峰時段,還能聯(lián)動觸發(fā)資源擴容等應(yīng)急流程,避免故障擴大影響核心業(yè)務(wù)。
5.數(shù)據(jù)可視化
在數(shù)據(jù)可視化方面,平臺通過三大看板實現(xiàn)運維數(shù)據(jù)的直觀呈現(xiàn)與高效應(yīng)用。實時監(jiān)控看板以動態(tài)儀表盤形式,集中展示交易(交易量、平均耗時、交易成功率)與運維(主機CPU使用率、內(nèi)存占用、網(wǎng)絡(luò)連通性)兩大維度核心指標(biāo),指標(biāo)超出預(yù)設(shè)閾值時自動標(biāo)紅并彈窗提醒,同時支持按系統(tǒng)模塊、時間區(qū)間靈活篩選數(shù)據(jù),運維人員可一眼掌握當(dāng)前系統(tǒng)運行狀態(tài)。歷史趨勢看板則支持多時段(日、周、月及結(jié)息日、業(yè)務(wù)高峰等特殊時點)指標(biāo)趨勢查詢,可自動生成歷史同期數(shù)據(jù)對比曲線,比如疊加去年與今年“雙11”交易峰值變化、近3次結(jié)息日的主機負(fù)載趨勢,幫助快速判斷當(dāng)前數(shù)據(jù)是否處于正常波動區(qū)間。
故障溯源看板作為問題定位的關(guān)鍵工具,可與異常檢測模塊聯(lián)動 ——點擊標(biāo)紅的異常指標(biāo),能自動關(guān)聯(lián)調(diào)取對應(yīng)時段的原始日志、鏈路追蹤軌跡及相關(guān)資源使用數(shù)據(jù),形成“異常指標(biāo)-日志詳情-鏈路節(jié)點”的完整溯源鏈條。此外,平臺支持多維度數(shù)據(jù)關(guān)聯(lián)分析,比如將“交易成功率下降”與“某區(qū)域服務(wù)器CPU使用率突高”“對應(yīng)鏈路響應(yīng)延遲”進(jìn)行數(shù)據(jù)關(guān)聯(lián),幫助運維人員快速鎖定故障源頭,無需逐系統(tǒng)排查,將傳統(tǒng)故障定位時間從30分鐘壓縮到10分鐘以內(nèi)。
6.移動端運維與管理
開發(fā)移動端APP作為智能運維平臺的延伸,可實時查看交易與運維核心指標(biāo)(異常指標(biāo)標(biāo)紅提醒),還能遠(yuǎn)程確認(rèn)并觸發(fā)服務(wù)重啟等簡單故障的修復(fù)腳本,打破運維的時間和空間限制。這一功能預(yù)計可節(jié)約三分之一的運維人力,將其投入到提升系統(tǒng)應(yīng)急切換能力的其他工作場景中。
該APP通過aTrust應(yīng)用商城部署,遠(yuǎn)程訪問需接入行內(nèi)專用 VPN,以隧道加密保護(hù)數(shù)據(jù)傳輸,疊加多因素身份認(rèn)證嚴(yán)格管控權(quán)限,從部署到訪問筑牢安全防線。方案既能保障交易指標(biāo)等敏感數(shù)據(jù)的安全與私有性、符合行內(nèi)規(guī)范,又能簡化管理、降低跨系統(tǒng)操作成本,提升權(quán)限管理與集中運維效率。
四、項目過程管理
需求分析階段:2024.10.11-2024.11.10
設(shè)計階段:2024.11.11-2025.02.01
開發(fā)階段:2025.02.02-2025.05.20 測試階段:2025.05.21-2025.07.01
系統(tǒng)上線:2025.07.09
五、運營情況
本項目上線后,已完成總行運維中心全員培訓(xùn),當(dāng)前超30個業(yè)務(wù)系統(tǒng)已接入平臺。智能化運維平臺的建成對于降低運維成本、提升運維效率、縮短故障處置時間,以及保障系統(tǒng)穩(wěn)定性與業(yè)務(wù)連續(xù)性均發(fā)揮關(guān)鍵作用。
智能化運維平臺是我行自研系統(tǒng),所有數(shù)據(jù)均存儲于行內(nèi)服務(wù)器。平臺性能滿足在線用戶數(shù)≥500、并發(fā)量≥100,查詢響應(yīng)時間不超過30秒,故障定位時間不超過10分鐘。平臺自上線以來運行穩(wěn)定,未出現(xiàn)因故障修復(fù)導(dǎo)致的系統(tǒng)不可用情況,有效保障了我行業(yè)務(wù)的正常開展。
六、項目成效
1.經(jīng)濟(jì)效益
自上線以來,智能化運維為我行減少30%以上運維人力投入,重要信息系統(tǒng)資源利用率提升25%,指標(biāo)異常告警時間縮短至1分鐘內(nèi)、故障定位時間縮短60%以上;同時,運維數(shù)據(jù)基座可復(fù)用至鄉(xiāng)村金融需求分析,間接帶動普惠金融業(yè)務(wù)營收增長,實現(xiàn)降本提效雙向收益。
2.社會效益
平臺保障30余個業(yè)務(wù)系統(tǒng)7×24小時穩(wěn)定運行,確保鄉(xiāng)村金融服務(wù)不中斷,鄉(xiāng)村客戶投訴量同比下降30%;其“低投入、高適配”轉(zhuǎn)型路徑,為經(jīng)濟(jì)下行期農(nóng)村金融機構(gòu)轉(zhuǎn)型提供了可借鑒思路,未來還能助力鄉(xiāng)村振興關(guān)聯(lián)行業(yè)穩(wěn)定信息系統(tǒng),夯實縣域金融科技支撐。
七、經(jīng)驗總結(jié)
智能化運維的成功實踐,為金融行業(yè)數(shù)智化轉(zhuǎn)型積累了可借鑒的寶貴經(jīng)驗。我們積極響應(yīng)國家科技金融高質(zhì)量發(fā)展號召,通過科技賦能提升業(yè)務(wù)效率,構(gòu)建“數(shù)據(jù)驅(qū)動科技、科技反哺經(jīng)濟(jì)”的新發(fā)展路徑。針對我行業(yè)務(wù)發(fā)展中的痛點難點,我們將持續(xù)迭代功能、積蓄發(fā)展新動能,緊跟國家科技發(fā)展大勢,推動系統(tǒng)向全面智能化升級,為金融行業(yè)服務(wù)全面鄉(xiāng)村振興注入不竭動力。
更多金融科技案例和金融數(shù)據(jù)智能優(yōu)秀解決方案,請在數(shù)字金融創(chuàng)新知識服務(wù)平臺-金科創(chuàng)新社案例庫、選型庫查看。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.