无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

直面數(shù)據(jù)中心“運維暴擊”,AI時代元腦服務(wù)器如何“見招拆招”

0
分享至

文|宋辰

編輯|李薇

AI時代,數(shù)據(jù)中心正經(jīng)歷一場前所未有的“進(jìn)化”。

爆發(fā)的AI訓(xùn)練、推理,還有大數(shù)據(jù)分析、云計算等業(yè)務(wù),讓數(shù)據(jù)中心算力需求暴漲、能耗持續(xù)攀升,運維團隊每天都在“刀尖上跳舞”——高負(fù)載、高并行的各類應(yīng)用給服務(wù)器內(nèi)存、風(fēng)扇、硬盤帶來“暴擊”,稍有不慎就可能造成宕機、數(shù)據(jù)丟失甚至業(yè)務(wù)中斷

而不同的應(yīng)用要運行在幾百種不同型號的異構(gòu)設(shè)備上,隨著數(shù)據(jù)中心服務(wù)器規(guī)??焖倥噬笠?guī)?;A(chǔ)設(shè)施的運維也面臨重重挑戰(zhàn)。

元腦服務(wù)器作為浪潮信息最新一代智算品牌,依托數(shù)百萬級服務(wù)器運維管理經(jīng)驗,全新升級服務(wù)器智能管理功能,直面數(shù)據(jù)中心運維的多重暴擊,幫助運維團隊“見招拆招”,成為大規(guī)模數(shù)據(jù)中心運維團隊的必備“智囊”。

大咖科技

Tech Chic

數(shù)據(jù)中心運維面臨

三大“暴擊”

暴擊一:內(nèi)存資源“告急”,宕機風(fēng)險步步緊逼。

AI模型的訓(xùn)練和推理對內(nèi)存的需求堪稱“饕餮”。 AI計算任務(wù)往往涉及大規(guī)模并行計算,對內(nèi)存的使用更加密集,以GPT-3為例,其訓(xùn)練需要數(shù)百GB甚至TB級別的內(nèi)存資源。隨著模型規(guī)模的不斷擴大,內(nèi)存的需求還在持續(xù)增長。

內(nèi)存資源不僅昂貴,還非常“嬌氣”。一旦出現(xiàn)故障,輕則影響單臺服務(wù)器的性能,重則導(dǎo)致整個集群的崩潰。更糟糕的是,內(nèi)存故障往往難以預(yù)測,傳統(tǒng)的監(jiān)控手段只能“事后補救”,無法做到“未卜先知”。

據(jù)統(tǒng)計,由服務(wù)器硬件異常導(dǎo)致的宕機中,高達(dá)74%是由內(nèi)存故障引發(fā)的。內(nèi)存故障可分為不可糾正錯誤UCE和可糾正錯誤CE,UCE故障可能會導(dǎo)致服務(wù)器立馬宕機。

安全研究機構(gòu)波洛蒙研究所的統(tǒng)計結(jié)果顯示,具有一定規(guī)模的企業(yè)發(fā)生服務(wù)器宕機事件,會帶來平均每分鐘近9000美元的損失成本,小型企業(yè)的損失在每分鐘137至427美元之間。

元腦服務(wù)器全新升級的內(nèi)存故障智能預(yù)警修復(fù)技術(shù)MUPR,從單端預(yù)警升級為BIOS、BMC兩級防護,通過對上萬臺服務(wù)器故障數(shù)據(jù)的建模分析和AI模型算法的訓(xùn)練,實現(xiàn)了對內(nèi)存UCE故障的精準(zhǔn)預(yù)測和實時修復(fù)。

搭載了MUPR技術(shù)的元腦服務(wù)器,全天候、多方位監(jiān)測服務(wù)器內(nèi)存健康狀態(tài),50萬臺服務(wù)器級別的數(shù)據(jù)中心,內(nèi)存UCE發(fā)生率按年化1%計算,MUPR技術(shù)可以有效規(guī)避80%以上的內(nèi)存UCE發(fā)生,每年節(jié)省約5400萬元的內(nèi)存故障維護費用。

暴擊二:溫控壓力“爆表”,開機如起飛

算力越強,發(fā)熱量就越大。一臺高性能的服務(wù)器功耗可能高達(dá)數(shù)千瓦,相當(dāng)于幾十臺普通服務(wù)器的總和。而數(shù)據(jù)中心的散熱系統(tǒng)往往“跟不上節(jié)奏”,導(dǎo)致服務(wù)器溫度過高,性能下降甚至硬件損壞。

光聽服務(wù)器開機的聲音以為是“飛機起飛”?!懊髅鲃傞_機,服務(wù)器內(nèi)部各個部件還未完全上電,風(fēng)扇轉(zhuǎn)速為什么要拉滿?”運維人員大為不解卻無可奈何。而且,伴隨著風(fēng)扇的呼嘯聲,服務(wù)器啟動“龜速”,開機時間要三五分鐘甚至更久。

癥結(jié)就在于,服務(wù)器傳統(tǒng)控溫策略中為了盡可能滿足散熱安全性要求,上電之后會以最大配置的方式來進(jìn)行風(fēng)扇速度調(diào)節(jié),而此時BMC Linux系統(tǒng)尚未啟動,熱量傳感器數(shù)據(jù)無法采集,導(dǎo)致風(fēng)扇滿載狀態(tài)會持續(xù)較長時間,帶來能耗、噪音的攀升和穩(wěn)定性的降低。而且,為了避免開機過程中散熱風(fēng)險,一般會設(shè)置等待BMC Linux系統(tǒng)啟動完成后再啟動POST過程,導(dǎo)致服務(wù)器從AC上電到進(jìn)入OS的時間被拉長。

元腦服務(wù)器首創(chuàng)服務(wù)器開機3秒智能控溫技術(shù),通過BMC Linux/RTOS異構(gòu)雙系統(tǒng)并行管理技術(shù),實現(xiàn)了上電即開機,開機時間縮短一半以上。同時,該技術(shù)通過實時感知環(huán)境溫度,動態(tài)調(diào)控風(fēng)扇轉(zhuǎn)速,噪音比優(yōu)化前最大下降30.4%,開機功耗也可大幅降低。

暴擊三:硬盤故障“頻發(fā)”,數(shù)據(jù)安全岌岌可危

AI時代,數(shù)據(jù)就是“命根子”。然而,隨著數(shù)據(jù)量的爆炸式增長,硬盤的故障率也在不斷上升。一塊硬盤的故障可能導(dǎo)致數(shù)TB的數(shù)據(jù)丟失,而數(shù)據(jù)恢復(fù)的時間成本和經(jīng)濟成本都高得驚人。

某互聯(lián)網(wǎng)大廠的數(shù)據(jù)中心4年內(nèi)的29萬次硬件故障中,硬盤故障占比高達(dá)81.84%。一旦硬盤故障,就會導(dǎo)致陣列降級,讀寫性能下降,期間還會存在二次掉盤導(dǎo)致的數(shù)據(jù)丟失風(fēng)險。雖然傳統(tǒng)存儲有RAID、副本等機制,但是數(shù)據(jù)重建過程中要使用大量IO資源,而且重建時間很長,往往以天計算,這會對業(yè)務(wù)連續(xù)性造成嚴(yán)重影響。

傳統(tǒng)的硬盤監(jiān)控手段往往只能“亡羊補牢”,無法提前預(yù)警。更糟糕的是,硬盤故障的排查和修復(fù)需要大量人力,運維團隊常常疲于奔命,類似于中醫(yī)“治未病”理念的準(zhǔn)確預(yù)測成為硬盤真正“硬”起來的最優(yōu)解。

根據(jù)當(dāng)前技術(shù)規(guī)范,服務(wù)器系統(tǒng)可提取的硬盤參數(shù)大約60多種,這是磁盤故障判斷的基礎(chǔ)。元腦服務(wù)器的研發(fā)工程師們選擇采用AI算法技術(shù)來建立硬盤的失效預(yù)測模型。模型累計分析了超過300億條故障特征數(shù)據(jù),引入GAN、XGBoost、PCCs算法,基于567種預(yù)處理參數(shù)的近百種模型組合,以匹配不同型號、不同廠商的硬盤,最終實現(xiàn)最優(yōu)的失效模型建模。

目前,元腦服務(wù)器已經(jīng)實現(xiàn)HDD故障預(yù)測、SSD壽命預(yù)測,提前14天預(yù)測風(fēng)險盤,故障預(yù)測準(zhǔn)確率超95%,誤報率小于1%。

大咖科技

Tech Chic

設(shè)備規(guī)模爆發(fā),

大規(guī)模數(shù)據(jù)中心運維新挑戰(zhàn)

一方面,數(shù)據(jù)中心運維的三大“暴擊”依舊需要面對,另一方面,AI時代的算力需求,讓數(shù)據(jù)中心的設(shè)備規(guī)??焖倥噬?,基礎(chǔ)設(shè)施運維管理面臨全新挑戰(zhàn)。

在大規(guī)模數(shù)據(jù)中心,隨著業(yè)務(wù)量的快速增長,服務(wù)器數(shù)量爆發(fā)式增長,設(shè)備規(guī)模從最初的1000臺逐漸增加到10萬臺,規(guī)模擴大了100倍,涵蓋了不同年代和廠商的服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備等,設(shè)備種類多,內(nèi)存、電源、硬盤、風(fēng)扇等各類故障發(fā)生的不確定性大。

以擁有10萬+設(shè)備的大規(guī)模數(shù)據(jù)中心為例,每日產(chǎn)生近30TB的設(shè)備運行狀態(tài)、億級監(jiān)控指標(biāo)、數(shù)千條告警推送等。如何秒級反饋海量并發(fā)需求,保證管理平臺穩(wěn)定運行;如何避免將每秒近千條的大規(guī)模設(shè)備告警風(fēng)暴強塞給客戶,進(jìn)行根因定位并避免誤報、漏報。這些挑戰(zhàn)正伴隨服務(wù)器、存儲和網(wǎng)絡(luò)設(shè)備規(guī)模的持續(xù)增長,成為超大規(guī)模數(shù)據(jù)中心管理亟待解決的難題。

在最近的一項調(diào)查中,57%的數(shù)據(jù)中心所有者表示,他們會相信人工智能模型來做出運營決策,借助智能平臺來簡化日常運維——這比上一年增長了近20%。

面對數(shù)據(jù)中心大規(guī)模的設(shè)備運維管理需求,元腦服務(wù)器數(shù)據(jù)中心基礎(chǔ)設(shè)施管理平臺結(jié)合在數(shù)據(jù)中心大規(guī)模IT設(shè)備運維實踐經(jīng)驗,通過統(tǒng)一接口、協(xié)議,能夠納管多達(dá)400種不同廠商、不同型號的服務(wù)器、存儲、網(wǎng)絡(luò)等機型,設(shè)備規(guī)模最多可達(dá)10萬臺,不僅創(chuàng)造了金融行業(yè)單一數(shù)據(jù)中心帶外管理的最大紀(jì)錄,還實現(xiàn)了數(shù)據(jù)中心基礎(chǔ)設(shè)施全生命周期管理,整體運維效率提升兩倍,為超大規(guī)模數(shù)據(jù)中心運維提供智能均衡調(diào)度、實時精準(zhǔn)告警等管理功能;同時在智能化方面,管理平臺通過智能均衡作業(yè)調(diào)度平臺,能夠在秒級內(nèi)處理超大規(guī)模數(shù)據(jù)中心億級實時并發(fā)運維管理數(shù)據(jù),并基于自研的告警管理框架,實現(xiàn)5秒內(nèi)響應(yīng)上千條告警風(fēng)暴,顯著降低告警誤報與漏報的風(fēng)險。

目前,元腦服務(wù)器和基礎(chǔ)設(shè)施管理平臺的全新智能升級,已在海內(nèi)外收獲了廣泛的認(rèn)可,為全球互聯(lián)網(wǎng)、金融、通信、IT、教科研等用戶的數(shù)據(jù)中心,提供了數(shù)字化、智能化的運維服務(wù),保障數(shù)據(jù)中心業(yè)務(wù)安全、穩(wěn)定地運行。

未來,隨著AI技術(shù)的進(jìn)一步成熟,數(shù)據(jù)中心的運維工作將從“人力密集型”持續(xù)向“技術(shù)密集型”轉(zhuǎn)型。元腦服務(wù)器將以技術(shù)創(chuàng)新為驅(qū)動,助力數(shù)據(jù)中心在AI時代“乘風(fēng)破浪“,為基礎(chǔ)設(shè)施的數(shù)智化轉(zhuǎn)型提供更加智能、高效、穩(wěn)定、可靠的算力產(chǎn)品,加速智能時代的到來。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
8個一字跌停后,還有467萬手封單,近37萬股東徹底被悶殺

8個一字跌停后,還有467萬手封單,近37萬股東徹底被悶殺

財經(jīng)智多星
2026-05-13 15:24:23
醫(yī)生呼吁:70歲以上老人,寧可吃熱乎饅頭喝稀粥,也別碰這些!

醫(yī)生呼吁:70歲以上老人,寧可吃熱乎饅頭喝稀粥,也別碰這些!

芹姐說生活
2026-05-13 19:15:32
國際足聯(lián)主動妥協(xié),五折甩賣世界杯版權(quán),央視為何拒不買單

國際足聯(lián)主動妥協(xié),五折甩賣世界杯版權(quán),央視為何拒不買單

璀璨幻行者
2026-05-10 22:09:58
我一直糾結(jié)劉濤的長相很久了,昨天拿去讓老人家?guī)兔纯疵嫦唷?>
    </a>
        <h3>
      <a href=小光侃娛樂
2026-05-13 11:59:03
彈跳能力歷史第二,弗吉尼亞理工大四鋒線擁有頂級的運動能力?

彈跳能力歷史第二,弗吉尼亞理工大四鋒線擁有頂級的運動能力?

稻谷與小麥
2026-05-14 00:12:27
從今天起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

從今天起,中國不再需要日本道歉!這覺醒,來自3500萬亡魂的重量

芳芳?xì)v史燴
2026-05-13 22:25:25
OPPO再致歉:從嚴(yán)處罰高級副總裁段要輝

OPPO再致歉:從嚴(yán)處罰高級副總裁段要輝

21世紀(jì)經(jīng)濟報道
2026-05-11 14:48:08
女子碩士入學(xué)清華后參與智力測驗,僅得25分,回應(yīng):無論是學(xué)習(xí)、工作、創(chuàng)業(yè),我都沒有遇到困難,但我居然智力中下

女子碩士入學(xué)清華后參與智力測驗,僅得25分,回應(yīng):無論是學(xué)習(xí)、工作、創(chuàng)業(yè),我都沒有遇到困難,但我居然智力中下

揚子晚報
2026-05-11 07:48:21
黑衣女子推搡哨兵后續(xù):知情人爆料,官媒發(fā)聲恐不止坐牢這么簡單

黑衣女子推搡哨兵后續(xù):知情人爆料,官媒發(fā)聲恐不止坐牢這么簡單

趙枹是個熱血青年
2026-05-12 23:05:47
為什么感覺失業(yè)的人在變多,可是卻依然很穩(wěn)定?

為什么感覺失業(yè)的人在變多,可是卻依然很穩(wěn)定?

黯泉
2026-05-06 20:44:16
英超前瞻|曼城3-0水晶宮:爭冠已失主動,曼城能否全力以赴

英超前瞻|曼城3-0水晶宮:爭冠已失主動,曼城能否全力以赴

體育世界
2026-05-13 13:10:50
英超混不下就去意甲!努涅斯遭小因扎吉棄用 被推薦給2意甲球隊

英超混不下就去意甲!努涅斯遭小因扎吉棄用 被推薦給2意甲球隊

智道足球
2026-05-13 16:11:00
老了才看透:父弱母強的家庭,養(yǎng)出來的孩子,大多是這兩種結(jié)局

老了才看透:父弱母強的家庭,養(yǎng)出來的孩子,大多是這兩種結(jié)局

心理觀察局
2026-05-11 10:00:27
徐子淇老的不忍直視!和李家誠一起看望楊受成,眼袋重皮膚冒油光

徐子淇老的不忍直視!和李家誠一起看望楊受成,眼袋重皮膚冒油光

小娛樂悠悠
2026-05-13 11:14:18
A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

A股:2.5億股民,今晚可能要興奮得睡不著覺了,你知道為什么嗎?

夜深愛雜談
2026-05-13 21:09:19
新華社消息|外交部:堅決反對所謂“哥本哈根民主峰會”執(zhí)意邀請“臺獨”分子大放厥詞

新華社消息|外交部:堅決反對所謂“哥本哈根民主峰會”執(zhí)意邀請“臺獨”分子大放厥詞

新華社
2026-05-13 19:59:39
顛覆認(rèn)知!魚油 Omega-3 或加速腦功能衰退,降低腦細(xì)胞運行效率

顛覆認(rèn)知!魚油 Omega-3 或加速腦功能衰退,降低腦細(xì)胞運行效率

思思夜話
2026-05-12 13:01:13
遠(yuǎn)比高市危險!日本右翼強勢聯(lián)合,介入臺海問題,背后布局不簡單

遠(yuǎn)比高市危險!日本右翼強勢聯(lián)合,介入臺海問題,背后布局不簡單

人工島分布
2026-05-13 07:49:57
5月13日,人社部2026年養(yǎng)老金調(diào)整通知來了嗎?幾個信號很關(guān)鍵

5月13日,人社部2026年養(yǎng)老金調(diào)整通知來了嗎?幾個信號很關(guān)鍵

云鵬敘事
2026-05-13 21:09:17
5奪歐冠沒哭,帶貝蒂斯進(jìn)歐冠卻哭成淚人!伊斯科逆襲太動人了!

5奪歐冠沒哭,帶貝蒂斯進(jìn)歐冠卻哭成淚人!伊斯科逆襲太動人了!

仰臥撐FTUer
2026-05-13 12:42:02
2026-05-14 01:16:49
大咖科技TechChic incentive-icons
大咖科技TechChic
聚焦科技領(lǐng)域,用財經(jīng)視角穿透商業(yè)世界。
310文章數(shù) 17關(guān)注度
往期回顧 全部

科技要聞

阿里年營收首破萬億,AI終于不再是畫大餅

頭條要聞

特朗普抵京走紅毯舞起熟悉手勢 乘"陸軍一號"前往酒店

頭條要聞

特朗普抵京走紅毯舞起熟悉手勢 乘"陸軍一號"前往酒店

體育要聞

14年半,74萬,何冰嬌沒選那條更安穩(wěn)的路

娛樂要聞

白鹿掉20萬粉,網(wǎng)友為李晨鳴不平

財經(jīng)要聞

美國總統(tǒng)特朗普抵達(dá)北京

汽車要聞

C級純電轎跑 吉利銀河"TT"申報圖來了

態(tài)度原創(chuàng)

游戲
房產(chǎn)
藝術(shù)
親子
公開課

《OW》10周年慶典被老外狂噴"摳死了":把我們當(dāng)猴耍

房產(chǎn)要聞

卷瘋了!最低殺到7字頭!手握30萬,??跇鞘袡M著走!

藝術(shù)要聞

規(guī)劃中的成都第三高樓,從396米降到250米以下?

親子要聞

去最需要的地方!安慧霞遠(yuǎn)赴高原幼教幫扶:夜晚吸氧白天授課

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版