網易首頁 > 網易號 > 正文 申請入駐

中國存儲登頂記:3000 萬次心跳和 30 年山河轟鳴

0
分享至

淺友們好~我是史中,我的日常生活是開撩五湖四海的科技大牛,我會嘗試用各種姿勢,把他們的無邊腦洞和溫情故事講給你聽。如果你想和我做朋友,不妨加微信(shizhongmax)。

中國存儲登頂記:

3000 萬次心跳和 30 年山河轟鳴

文|史中

(一)“3000 萬”的狂野承諾

2024 年深秋。一間寬大的會議室里,三十多位來自曙光存儲團隊的老師傅圍坐,盯著屏幕上平平無奇的代碼。

別被他們白面書生的長相給騙了,實際上,他們背地里玩兒的比誰都刺激。。。

如果我們可以縮小,順著屏幕背后的線纜往深處走,會進入一個碩大的計算機集群。

這個集群正在淺吟低吼。

幾分鐘后,它將會爆發狂野威力,瞬間模擬出上千萬人同時在網上瀏覽、購物、下單、轉賬的混亂操作。

而這些操作產生的每一條讀取和寫入數據的請求,都會如槍林彈雨般射向我們今天的主角:一套名為 FlashNexus 的存儲系統。

FlashNexus 的任務只有兩個字:頂住。

具體來說,是要頂住每秒 3000 萬次的讀寫請求——簡稱為3000 萬 IOPS

你不妨想象一個宇宙空間里的碩大倉庫,里面的貨架上擺滿了箱子。

一秒內就有 3000 萬個箱子被搬進搬出,而且是要指定貨架指定位置,無一錯漏。

這個成績,會被如實記錄在評測軟件中,反手發給世界最權威的機構 SPC(存儲性能委員會)。

一旦通過認證,FlashNexus 就會以絕對優勢登上“SPC-1 榜單”的第一位。

我猜有淺友會說:技術我不懂,但按照咱中國人做事的穩妥方式,老師傅肯定已經背地里研發到萬無一失,這次測試只是最后走個秀,沒有通不過的道理吧?

非也。

這個榜單相當于存儲領域的奧運會:3000 萬 IOPS 不僅意味著金牌,還意味著新的世界紀錄

運動員創造世界紀錄,不可能有什么“萬無一失”。

舉個宏觀世界的例子吧:

2025 年,小米 SU7 Ultra 在上海國際賽道創造了 2:09.944 的量產車最快圈速的世界紀錄。

而為了創造這個圈速,小米使用了兩臺車,一臺車去沖榜的間隙,另一臺車就原地加電換胎保養。

即使這樣呵護備至,也總會有微小的意外擾動成績。當天的車手跑了很多圈,從中午飆到黃昏,才終于把最佳成績從 2 分11 秒多刷到 2 分 10 秒以下。

你說這個世界紀錄是真的嗎?當然是真的。你說這個紀錄能一次達到嗎?老天不會對你那么好的。

回到 FlashNexus 的測試現場,事情的本質是一樣的。

3000 萬的性能指標,是老師傅在產品設計之初就立下的承諾。

實際上,在這之前,團隊已經試運行過兩次測試程序,結果就因為某塊硬盤和網卡有微小的瑕疵,導致測試結果有一瞬間崩到了 2000 多萬。

雖然抖動只有一秒左右,但套用《霸王別姬》里程蝶衣的話:差一秒,差幾百毫秒、幾十毫秒,都不算 3000 萬!

這一次,老師傅們又肝了一個禮拜,絞盡腦汁把所有的點位都做了檢查加固。此刻拔劍四顧,能做的好像只剩祈禱了。

對啊!

說到這,有人從椅子上彈射了起來。

當時正好是曙光存儲部門成立 20 周年, 單位給發了水果。他們七手八腳拿來幾個柿子和橙子,然后找了根雪糕棍,寫了個“榜”字。堆在一起:打榜事立成(大棒、柿子、立著的橙子)。

郭照斌看了看,覺得團隊搞玄學的最高水平也就是諧音梗了,沒啥說的了,圖靈保佑,馮·諾依曼保佑——走你!

隨著回車鍵清脆的響動,數據如海嘯奔涌,通過光纖管道高壓直噴到 FlashNexus。

隨即,根據測試程序的預設,數據流量變成一條條排浪,從低逐漸到高,從高逐漸到低,然后高低突然切換,用最虐的方式拍打著存儲系統的堤岸。

在這頭的屏幕上,IOPS 的實時數據和老師傅的心跳也隨之脈沖。

最挑戰的時刻來了,流量洪峰開始全速沖擊。所有人都凝固在原地,死死盯著開頭的那個 3 字。而任憑其他數字瘋狂跳動,3 始終是 3!

隨著測試程序緩緩降溫,會議室里歡呼雷動。

這些師傅中,很多都默默搞了十幾、二十年存儲技術,把人生最好的年華傾倒在了晶片和代碼之間。

正因為系統里的 1000 萬行代碼全部來自于他們的歲月和指尖,他們才知道這 3000 萬 IOPS 的承諾有多狂野,才知道這 3000 萬 IOPS 對腳下的山河意味著什么。

SPC-1 榜單被新的世界記錄刷新

(二)是誰來自山河湖海,卻囿于“最后一塊拼圖”

我猜你現在正端著手機,輕飄飄地滑動著這篇文章。

但這個操作絕不限于眼前方寸。

支撐它的,是橫跨山河的存儲體系

你看到的這些文字本身,當然要和其他內容一起放在平臺的存儲系統里,供全球所有人隨時調閱,不能出現任何延遲和過載。

你隨時能給手機充電,是因為我們國家擁有穩定的電力系統。而電網如此穩定,是因為每時每刻全國的高壓變電站都會回傳海量的數據,使得調度系統可以精確平衡電網的壓力。

你正在使用的網絡流量,是靠遍布全國的 5G 基站提供的服務。你之所以不用操心信號抖動,是因為電信運營商會把所有基站的工作數據回傳,用于實時分析、監測。

可以這樣說: 手機、電腦、智能汽車,無論什么設備,它們的本質工作都是計算;而計算產生數據,數據必定要安駐在某個存儲系統。

如今成百上千種存儲產品“毫無存在感地”支撐著我們生活的方方面面,就像大河縱橫,載千帆競流。

有趣的是,無論沿著哪條支脈漫溯,我們都會來到同一個湍急的上游:

1980 年代,新中國敞開了大門,從百年踉蹌里爬起來,站穩姿勢準備擁抱世界。可兩手空空的感覺真難受,一切可能性的源頭都是“能源”。

跺跺腳,大地沉默,到底祖國母親把能源藏在了哪里?

為了勘探石油,石油工業部的專家必須依靠“高性能計算設備”對地震波進行計算。而當時,滿足需求的只有 Made in USA 的大型機。

外國人大發慈悲,同意用高于市場價幾倍的價格賣給我們。

不過,為了防止我們“偷偷”用它進行軍事計算,專門在外面建了一個玻璃罩,鑰匙在他們手里,只有在洋人的監視下才能操作。

這不是商業,這是侮辱。

君子報仇,十年不晚。我們的民用高性能計算研究,就大概始于那時。

在國家 863 計劃的指導下,1993 年,李國杰院士帶著中科院的一群年輕人開發了“曙光一號”,用分布式高性能計算突破了壟斷。

而后時光奔流,曙光系列高性能計算系統成為國之重器,中科曙光公司也由此成立,日益壯大。

如今我們對制造世界一流的高性能計算、世界一流的云計算和人工智能基建有一種迷之執念,這大概都源自 80 年代“計算饑渴”造就的肌肉記憶。

但老話說得好:光存不算假把式,光算不存傻把式!

計算力越強,就需要越厲害的存儲系統與之相配。

曙光公司從 2004 年開始研發“分布式存儲系統”,一開始只是作為自家高性能計算的“陪嫁丫鬟”,但后來丫鬟也變成了大女主,開始獨立進入石油、電力、證券、 銀行、電信等等領域, 20 年來跨越山海,承托著國計民生的底層數據。

注意,這里我特意強調了“分布式”

分布式存儲,簡單理解就是用一個“調度系統”把很多普通服務器里的硬盤連接起來,組成一個大硬盤。

它就像一堆散落的倉庫。

倉庫規格各異,之間也不用打通,甚至不在一地。反正要找什么東西,調度系統知道去哪個倉庫找,不就行了嗎?

有了它,你只要不斷把新倉庫連接進系統里,就相當于造出無限擴展的倉儲系統了!

就像下面醬:

對于用戶眾多,又非常在意存儲成本的中國企業來說,這技術簡直太“解恨”了。

但這里有個小問題:“量大管飽”不是生活的全部,有時候,我們需要的是“米其林三星”!

把這么多倉庫統籌起來,必然需要復雜的調度系統,而調度的本質是信息在不同層級的模塊里流轉。

就像一家公司,制度越復雜,層級越多,決策流程就越長,干個事兒就越費時間。

這是難以避免的。

做過十幾年分布式存儲的郭照斌給我舉了一個例子:

假如一個存儲節點突發故障,故障信號層層傳輸到調度系統需要幾秒鐘,這時調度系統需要趕緊選定備用節點。

由于節點分散在各處,調度指令還需要通過網線遠程傳輸。等備節點解析信號,拉起服務,系統恢復平穩,全過程怎么說也得要 15-30 秒。

就算技術特別牛,能壓縮到 10 秒,那也已經接近物理極限了。

就像下圖:

可別說 10 秒,僅僅 1 秒的“罷工”,對很多國之重器來說都是“不能承受之重”。

曙光存儲 FlashNexus 產品經理衛然給我列舉了幾個數據:

銀行數據庫的存儲系統如果出現 1 秒故障,就會有 2000 筆跨行轉賬無法被記錄,需要手動對賬; 電信計費的存儲系統如果出現 1 秒故障 ,就會造成 1000 個用戶流量超標時無法及時提醒,導致資費損失; 證券報價數據庫存儲系統卡頓 1 毫秒,在上面購買滬深 300 基金的用戶損失就是 78 萬元。

話說,大概在 2017-2018 年,前線就不斷傳回來消息:

金融、能源、電信用戶最核心的數據庫,迫切需要搭配一種頂級存儲,既要要極其穩定,又要極其高速,還要支持極高并發。

人家已經立了英雄貼。只要能解燃眉之急,哪怕貴點兒也沒問題!

其實曙光存儲上上下下的師傅們心里都門清:這種既要又要還要,恐怕只有一種存儲產品可以滿足,那就是——集中式全閃存儲

所謂“全閃”,就是承載數據的硬盤不能是普通的 HDD 硬盤,而要使用更快速的 SSD,也就是我們說的閃存盤; 所謂“集中式”,就是不使用零散的服務器,而是定制一套機柜,里面的板卡和芯片都是專門設計的,把閃存盤放在一起“軍事化管理”,從而讓系統達到極限性能。

如果用倉庫的比喻,就是建設一個巨型倉庫,里面通道布局、機械結構、人員配置都統一設計;

而且所有貨架都靠電子系統尋找位置,無論是放東西還是拿東西,都比過去用機械臂找快上萬倍。

這么龐大又精密的東西,妥妥是存儲界的頂級貴族。。。它真的能造出來嗎?

答案是能。因為美國人早就造出來了。

要研究世界上最快的存儲系統,咱們只需要打開一個榜單——SPC-1。

六年前,郭照斌他們就曾經瞪著這個榜單,上面一水兒都是美國老牌公司:EMC、IBM 之類。

實際上,當時中國的銀行和券商,為了保證服務的極限可靠性,核心存儲也只能從這些外國產品里挑。

不是不想支持國產,只不過支持“中國設備”就沒辦法支持“中國用戶”。。。

沒錯,即便已經到了 2018 年,“玻璃房子”的幽靈仍在縈繞。

看著這個榜單,老師傅們心里五味雜陳。

這些“金榜題名”的公司隨便哪個都比曙光存儲的資金多十倍,人力多十倍,技術積累還多十幾年。

反觀曙光團隊自己,雖然已經有了不錯的分布式存儲產品,可集中式存儲,尤其是“集中式全閃存儲”,邏輯結構差異巨大,老師傅相當于重開一局,不僅每一行代碼都要重頭寫,甚至連團隊都得從頭招聘。

但這件事,并非純粹的商業決策。

回到歷史的當下,2018 年世界正急打轉向:美國變臉,對中國的技術封鎖開始動了真格,敞開的門正迅速關閉。

一旦拿下“集中式全閃存儲”,曙光存儲將代表中國摘取存儲系統皇冠上的明珠,也補上產品線最后一塊缺失的拼圖。

一旦拿不下。。。后面雖不能斷言沒機會,但代價可能會指數級提高。。。

曙光分布式存儲的一些技術骨干組成了“敢死隊”,向集中式全閃存儲進發,郭照斌就是其中一員。

郭照斌

隔著玻璃看歷史,總因細節模糊而顯平淡。但如果穿越回去,和他們一起站在懸崖邊,面對未知的命運卻仍要縱身而下時,我們能聽到耳邊呼嘯的風。

回望歷史,人不孤單。

1993 年,曙光的前輩們曾經面對更加恐怖的深淵。而他們走到了對岸,用“高性能計算”化成利劍劈開玻璃房子。

2004 年,分布式存儲的同事們也面臨幽深的峽谷。他們同樣走到了對岸,用極致性價比做出了外國產品的“平替”。

對這些故事的無數次重溫,也許就是系在集中式存儲團隊身上唯一卻無比堅固的“保險繩”。

不過這一次,他們有多大勝算呢?

(三)存儲系統的“特斯拉時刻”

嚴格說,這是曙光存儲第一次沖擊“集中式全閃存儲”,但不是第一次沖擊“集中式存儲”。

兩個名字看起來很像,實則天差地別。

如果用汽車類比:“集中式全閃存儲”就是電動車,而傳統的“集中式機械硬盤存儲”就是燃油車。

從燃油車到電動車,似乎只是核心動力部件從發動機變成了電動機,但為了適應它,其他所有的傳動結構都要發生天翻地覆的變化。甚至可以說,電動車和燃油車已經是兩個不同的物種。

存儲也是如此。

我們不妨回到倉庫的比喻,給你說說其中的核心要害:

硬盤好比就是倉庫里的貨柜。

1)機械硬盤存儲和提取貨物靠的是“機械臂”。

機械臂的運動有點像咱們在書架上找書時候的手指頭,順次點著書脊,看到要找的目標,就抽出來。這就是“尋道”。

2)閃存硬盤存儲和提取貨物靠的是“電子映射”。

它有點像咱們取快遞的柜子,你只要輸入柜子號,背后的電路板就直接控制相應的柜門彈開了。完全不需要尋道的過程。

尋找同樣一件東西,他倆的速度能差一萬倍。

你用閃存盤代替機械硬盤,存儲系統總體性能就提升了一萬倍嗎?

不對。

要說清楚這個事情,不能只看貨架,還要請上另一個角色——倉庫管理員

貨架只是無情的存取機器,得有一個管理員來告訴它需要把東西存在哪,或者從哪個位置取東西啊!

這個管理員,就是 CPU。

現在假設你就是管理員,如果用“機械貨架”,會是這樣的局面:

1)你的老板一下給了你 100 條指令,要你從倉庫里找出這 100 件東西,越快越好。 2)你拿出 1 號指令,對一個貨架說:你去給我拿這個 A 貨物。 3)貨架收到指令開始尋找,由于機械臂速度有限,可能得半小時才能找到。

這個時候,你該怎么辦?

在原地哼著小曲兒,等貨架把東西找來?老板肯定炒你魷魚啊!

沒錯,因為你這個管理員的效率比貨架的效率高太多,最好的辦法就是把任務穿插起來:

1)你布置完一個任務,馬上去布置下一個任務。 2)直到哪個貨架找到了,就來“釘”你一下。 3)被“釘”后,你暫停布置任務,把這個 A 貨物拿給客戶。 4)然后你再回來繼續布置任務,直到下一個 B 貨物被找到。 以此類推。。。

咱們用慢鏡頭展示一下這個過程↓↓↓

這個打斷你的操作,專有名詞就叫做 CPU 的“中斷”。

目前為止,一切都很順理成章。

現在,我們原地把機械貨架換成電子貨架,哪怕其他條件都不變,局面也大不一樣了:

1)你給第一個貨架布置完任務,讓它去找 A 貨物,然后你跑去給第二個貨架布置任務。 2)結果你第二個任務剛布置一半,就聽“釘”的一聲——第一個貨架已經把東西送來了。 3)你只好先把 A 貨物送走,回來繼續布置任務。但這么一折騰,你已經忘了剛才說到哪了,還得回憶半天。

你看,由于電子貨架速度太快,導致你布置任務的過程被頻繁打斷,每次打斷和續上都需要額外的時間和計算。

這么一來,你甚至不如回到最簡單的操作:

發布任務,原地等貨架找來,把貨送出去,再布置第二個任務。

咱們再用慢鏡頭展示一下這個過程↓↓↓

也就是說,如果倉庫里全是電子貨架(閃存盤),反而不需要機械貨架(機械硬盤)那么冗雜的調度邏輯。

正所謂:最好的食材只需要簡單的烹飪!

明白了這些,我們再回到現實中。

其實,曙光存儲早在 2012 年就嘗試用機械硬盤設計集中式存儲,但其中的代碼太復雜,而且很多邏輯都固化在硬件中,被國外壟斷,賣得死貴。所以那次嘗試并不成功。

所謂不成功,就是產品做出來了,但是性價比沒有“Made in China”的樣子。

類比一下,這也很像中國的汽車業。

過去,我們按照燃油車的技術路線追趕,不僅技術復雜,而且前面全是別人下的專利絆子,非常不劃算。所以中國燃油車一直沒有做到世界頂尖。

后來,我們直接換道超車,做技術更簡潔、競爭更小、前景更廣闊的電動車。

另開一局,這不就成了嗎?!

只不過,換道不是想換就能換,這里需要一個巨大的“天時”。

電動車的技術路線早就存在了(其實人類是先發明的電動車,后發明的燃油車),但世界上一直沒有一家成功的電動車企業。直到 2015 年,電驅和電池技術迅速成熟,價格大幅下降。

具備以上條件,才能有企業可能整合這些技術,制造出性價比優異的電動車,挑戰油車的地位。

于是,特斯拉橫空出世。

而在 2018 年左右,同樣的事情再次上演:閃存價格開始大幅下降

這就是存儲產業的“特斯拉時刻”!

從 2018 年開始閃存價格下降斜率變快,預計 2026 年會比機械硬盤更便宜。

特斯拉時刻的出現,意味著中國存儲產業換道超車的時間窗口已經打開。

當時有遠見的中國師傅都看到了這個歷史之門透出的光芒:

不只是曙光,包括華為、浪潮、紫光、金山在內的中國企業全在這個時間點大幅投入全閃存儲的研發。

滄海橫流,接下來誰最 牛,真的就是拼每一行代碼,每一顆芯片,每一塊板卡上的每一束電流了。

(四)“豪華倉庫”變形記

要說清楚“集中式全閃存儲”里面的狠活兒,咱們不妨線把倉庫工作的狀態放在舞臺上完整表演一遍。

首先給你把所有角色介紹清楚:

貨架:硬盤 箱子:數據 管理員:CPU 管理員的小本本:內存 快遞站:網卡 倉庫的老板:操作系統

現在演出開始。

第一幕

假設你開了一家連鎖咖啡館,叫“羊了個駝咖啡”。

中哥來了,下單一杯美式。

于是,這筆訂單由數據庫打包成了一個“賽博紙箱”,通過網線發送到了存儲系統的“快遞站”。

快遞站通知“管理員”:親,來活兒了,趕緊入庫!

管理員拿著這個箱子,到貨架旁,指揮它收起來。

這就是最基本的工作流程↓↓↓

話說,就我一個顧客,也用不上這么復雜的存儲系統。

接下來,我們上強度。

第二幕

你家生意太好,除了中哥還有 100 人同時買咖啡——每時每刻,快遞源源不斷。

這時,一個倉庫管理員就忙不過來了。

具體來說,你給倉庫里配了 4 個管理員小隊(對應著 4 個 CPU),每個小隊 有 64 個管理員(對應著 64 個核心),乘在一起有 256 個管理員。

這里問題就復雜了!

256 個管理員操作的可是同一間倉庫!他們之間有可能打架!

紅色管理員操作貨架上某個位置的時候,起碼得保證綠色管理員沒有操作這個位置,否則最后就亂了啊。。。

所以,你決定搞個“加鎖”機制。也就是紅色管理員操作之前,先把用到的檔口上鎖,操作完了再解鎖,其他管理員才能去操作。

這樣不就解決沖突問題了嗎?

沒錯,但我們接著上強度,新問題還會出現。

第三幕

同時買咖啡的人變成了 10000 個。

你突然發現,管理員又忙不過來了。

仔細一看,真正存取的沒花太長時間,大量的時間都浪費在了頻繁的加鎖和解鎖上。這咋整?

郭照斌他們給你想了一個方案:超級隧道

所謂超級隧道,核心思路就是:圍繞著每一個管理員(CPU 核),都配備它獨占的資源。

從快遞站開始,就分出 256 個格子,每個格子專屬一個管理員。紅色格子出現箱子,就等著紅色管理員來取,別的管理員哪怕閑著,也不能幫忙。

同理,紅色管理員也對應著自己的專屬貨架,他只能在自己的位置上存儲東西,其他管理員不能碰。

也就是說,從快遞站(網卡),到管理員(CPU),到貨柜(硬盤),形成了一個一桿子插到底的“超級隧道”。

這種情況下,領地不重疊,還加啥鎖?

“加鎖機制”的所有代碼都可以“全選+刪除”!

管理員只管搬箱子,系統運行起來肯定快得飛起。

但這還不是終局,我們繼續上強度。

第四幕

同時買咖啡的人變成了 100000 個。

雖然“超級隧道”沒有相互干擾,但不可避免,管理員手頭的任務開始出現“積壓”。

比如:紅色管理員這個箱子還沒放好,快遞站的紅色柜子又來了幾個新快遞。由于“超級隧道”的存在,這些快遞還只能他弄,別人幫不上忙。。。

這時,管理員有兩個策略:

1)一個一個來,等貨架把這個箱子放好了,再去取下一個箱子。 2)穿插著來,貨架正在擺放這個箱子的過程中,他就直接回到快遞站取下一個箱子。

注意!即便是“電子貨架”,存放的速度極快,也還是慢于管理員的行動速度。也就是說,第二個策略會更節省時間。

但問題是,管理員離開貨架時,必須記下現在手頭有哪些工作,順序是什么,分別干到哪一步了,回來好續上。

這時,就要給每個管理員配一個專屬“小本本”(內存專屬區域),記下關鍵信息。

由于管理員的職責不交叉,一個管理員只需要用最簡略的信息記錄下當前狀態,他自己能看懂就行,所以這個本本可以設計得非常小巧。

本本小,就能隨身帶(放在 CPU 寄存器),讀起來也很快,所以對整體存取的速度影響很小。

這種在同一個隧道里“庖丁解牛”,來回切換任務的操作,就叫做“協程調度”

協程調度帶來一個巨大的好處,那就是:一個新快遞來了,管理員看看小本子上的排隊情況,馬上就能回答你“這個快遞需要多久能入庫”。

這在宏觀上的表現就是:任何一個數據來了,都能知道還需要多久*肯定*能存好。

這個“多久”,其實就是系統在這一瞬間的卡頓時間,假設告訴你最大卡頓是 50 毫秒。你只要覺得 50 毫秒能接受,就沒事了呀。

你要不接受呢?

沒關系,我們繼續上強度。

第五幕

“羊了個駝”搞了個秒殺活動,同時買咖啡的人變成了 1000000 個。

相對應的,可能 1 號管理員的卡頓就變成了 1 秒鐘。這時,他已經不堪重負,需要求救了!

怎么呼救呢?

我們設計一個巨大的廣告牌,每個管理員都把自己的實時狀態和負荷寫在廣告牌上,所有人抬眼就能看到。

如果一個管理員在廣告牌上的負載總是很大,那么倉庫的“老板”,也就是操作系統就得出面了。

比如,他要重新分配任務,比如把一個貨架上的貨物分到兩個貨架上,由兩個管理員來干。

這其實很考驗倉庫老板的智商。因為它首先要反應快, 其次還要做預判,不能等管理員已經累壞了才想起來找人給他分擔任務。

這不僅需要精準合理的調度規則,還需要一套精確的 AI 預測系統。

OK,演員暫時謝幕。FlashNexus 主要的黑科技就科普到這里。

對于曙光存儲來說,這些不是戲劇,這些是他們過去幾年的經歷。

現在看上去,技術邏輯朗若裂眉。可一但上手去做,就會經歷了很多“一想就對,一做就廢”的至暗時刻。

即使是在領域里滾了 20 年的老師傅,也會經常卡在一些技術點上,例如主控節點之間信息高速互聯的協議策略、例如負載調度的模型微調。作廢的代碼無計其數。

說到底,“集中式全閃存儲”就是一項軟硬件緊密耦合的復雜工程,而工程從來無法用理論公式去完成。

很多軟硬件模塊的原理都是對經驗的擬合,沒有犯錯的經歷,你就不可能知道怎么做。

為啥美國公司能做好集中式存儲?因為他們做了幾十年,也錯了幾十年。僅此而已。

郭照斌告訴我,僅僅軟件部分,FlashNexus 就有 1000 萬行代碼,都是這幾年一個字一個字手敲出來的。

即便有些模塊能找到成熟的開源代碼,他們也是學習之后自己實現出來。

這倒不是什么強迫癥。因為只有自己敲出來,才意味著對其中的代碼有了本質理解。

一個用來護佑山河的存儲系統,中國人必須完全理解,這很合理吧?

而所謂理解,不過是在黑暗中摸索,一遍遍重來的過程中凝結的傷疤。

(五)追殺與登頂

2019 年,就在曙光集中式全閃存儲研發開始前,美國突然宣布把曙光加入“實體清單”。

大家總愛開玩笑,說這是對中國科技公司硬實力的蓋章認證。

但曙光存儲的師傅們可笑不出來,這意味著一場針對自己的“追殺”拉開序幕,刀刀見血。

剛才說過,集中式存儲是軟硬件協同的。這意味著光靠代碼還不夠,很多調度邏輯都要固化在硬件里。

可美國一紙禁令,讓原本還談著合作的外國企業一夜之間把曙光拉黑,一個字都不敢說了。

在這種情況下,哪怕之前已經買到手的芯片都不能使用了, 因為原廠不給任何技術支持,使用這些“三無芯片”萬一出啥問題,不是給自己埋雷嗎?!

怎么辦?

還能怎么辦?曙光老師傅開始用國產芯片重新設計。

存儲系統里不光用到 CPU,還有大大小小很多芯片,有些專用芯片就是為存儲產品設計的。這些芯片未必有多精細的制程,只是國外的比較成熟,過去沒有“卡脖子”,直接進口就行。

現在,曙光只好緊急聯系中國合作伙伴,給他們描述芯片的用途,討論參數,從頭進行聯合設計。

這是一場浩繁的工程。

但俯瞰當時的中國,曙光并不孤單。因為“卡脖子”的無差別攻擊,很多行業都突然面臨專用芯片缺失的局面,被迫開啟產業鏈自救。

塞翁失馬焉知非福。中國芯片的產品線補足,也發生在這個時期。無數自救故事凝固在彼處,成就了一幅寬闊的“清明上河圖”。

殺不死我的,必將讓我更強大。

一個有趣的轉機來自 2022 年底。

那時,“集中式全閃存儲”剛剛做好軟硬件的諸多準備,準備全力攻堅,隔壁突然傳來了好消息。

曙光的分布式存儲系統 ParaStor 沖擊了一個權威榜單:IO500。

IO500 考驗的核心是存儲容量和吞吐量。而 ParaStor 一舉拿下了 10 節點榜 單的第一名,把世界紀錄提升了 146%!

這無疑是“榮登”實體清單之后的一次洶涌的自我證明。

ParaStor 和 IO500 登頂成績。

分布式存儲是曙光存儲的傳統藝能,也是郭照斌本人奮斗了多年的領域。即便如此,這個成績還是有點超越了他的想象。

也正是從那時起,集中式存儲團隊心里萌生了一個想法:集中式全閃存儲也要證明自己!

3000 萬 IOPS,就是那時定下的目標。

實際上,老師傅想要挑戰的目標是:做到單集群百控級擴展,1 億 IOPS。

而在 SPC-1 的測評中,一般會使用 32 個主控的系統。簡單除一下,這個規模的系統應該要達到 3000 萬 IOPS。

于是,老師傅一邊朝著這個指標努力,一邊抽空和 SPC 聯系。由于相隔大洋,只能用郵件溝通,有時候一來一回就要一個禮拜。

2024 年夏天開始,好不容易拿到了測試系統,老師傅趕緊部署下去跑分試試。

結果,就在快要跑到 3000 萬 IOPS 的時候,測試系統就閃退了。。。

老師傅咂嘴。看來咱水平還是有待提高啊,繼續反躬自省吧。

自省了半個月,老師傅越發覺得不對勁。有沒有一種可能。。。是測試程序。。。有問題?

又開始了幾輪漫長的郵件溝通,SPC 的技術團隊終于確認:不好意思,我們的評測系統從沒跑過 3000 萬 IOPS,確實存在 Bug,等我們 Update 一下。

為了見證一個世界紀錄,連賽場都得重修一次,也算是活久見了。

時間終于來到了 2024 年秋天。頂級全閃存儲的軟件和硬件終于打磨光亮,測試程序也及時更新,文章開頭的那一幕終于出現了。

這個打榜的存儲系最終形態是:

32 個主控,每兩個主控互為備份,總共是 16 組“倉庫”,各個倉庫之間由高速網絡互聯,可以實時進行信息同步,保證它們連接在一起,共同成為一個超大的變形金剛。

這就是 FlashNexus 全閃服務器,前面的 25 個格子,就是 25 塊閃存盤的位置。

這樣一個每秒可以進行 3000 萬次存取響應的人造物巔峰,完全有能力進入大銀行的心臟,記錄海量刷新的賬目;有能力進入電信系統,記錄所有人的話費實時消耗;有能力進入石油系統,支持超大規模 AI 來分析地震波,尋找更加隱秘的礦藏。

凡是國外存儲系統能支撐的場景,中國存儲系統都能支撐;有些他們支撐不了的,我們還能支撐。

因為我們是世界第一。

這是測試結果的完整參數

這是一場圍追堵截中的登頂,一場曠日持久的塵埃落定。

客觀地說,曙光并非唯一的成功者。就在 2024 年,其他頭部的國產廠商也宣布推出自己的集中式全閃存儲。

從這個意義上講,中國師傅作為一個整體,踏足了曾經的技術禁區。

2025 年 2 月,SPC-1 的官方認證發布,在他們給曙光團隊的郵件中如是說:

我們將會把結果發布在 SPC 的網站上,并且給所有郵件列表上的成員發送通知。 我還會在首頁上添加一個通知; 并非每一天都有人能刷新 SPC-1 紀錄。

那之后幾個禮拜,郭照斌的手機被各方信息轟炸。

不僅自己的銷售團隊來問,客戶也托人來問,連很多友商同事都找來詢問情況,因為他們的老板看到新聞,質問他們為啥不去打榜。。。

“你們的紀錄有信心保持多久?”我問郭照斌。

“我當然希望保持久一些。也許一兩年,也許很快就被打破。但沒關系,紀錄就是用來打破的,因為我們也會繼續創造更好的紀錄。”

和團隊一起燃燒了幾年生命才抵達頂峰,郭照斌卻沒有我想象中那么留戀。

他的平靜,或許源于祛魅。

(六)耐心和祛魅

在過去的十多年,我們內心大概有一個共識:

中國技術可以做到很強。但這種強來自于 已知的堆壘,而非對未知的探尋。

換句話說——中國難有受人尊敬的技術創新。

這種判斷非常理性。畢竟中國的制度、學術體系、商業氛圍都和西方不同,最近幾十年的歷史也一再證明,美國總是創新的策源地。

但就在 2025 年,一些跳脫出歷史經驗的事情正在發生。

DeepSeek 祭出了讓世界 AI 研究者膜拜的模型推理結構,Manus 讓 AI 拯救了重復勞動的社畜;宇樹機器人在春晚舞姿順滑,越疆機器人用手指捏起了櫻桃。

中國技術人一如既往平凡地生活,上班打卡、下班帶娃,可他們手中卻不知不覺開始誕生一些世間尚不存在,并不平凡的東西。

如春雨潤物,大地返青。

這是一場洶涌的祛魅。

在郭照斌心里,這種祛魅發生得更早。

2022 年,分布式存儲創造了 IO500 世界紀錄時,郭照斌突然有一種感覺:身邊的人還是那些人,誰也沒有長出三頭六臂,也沒聽說誰菩提頓悟。

就是這些原班人馬,十幾年前還在琢磨模仿美國技術,七八年前還在研究如何跟緊別人的創新。也不知從那天開始,突然發現前面沒人了,只好自己創造,也就拿下了世界第一。

現在的信息流通非常自由,全世界的技術人正在同一片土地上耕作,過去那樣的嚴密封鎖再也不會出現了。 沖擊最高點不是不可能,只是以前沒敢想。

他說。

聽著他的話,我陷入了自己的回憶。

小時候,總看到那樣的新聞報道:有追求的技術人舍家撇業,遠渡重洋。因為最好的東西只在彼岸發生。仿佛這樣的奮不顧身浸染著至深的浪漫。

但如今,我就在家門口,和這些創造了歷史的技術人面對面,他們看上去和藹平靜,可能還有點兒羞澀。就像是小時候結伴上學的哥們。

我大概明白,技術人的浪漫,也許并非走到世界的盡頭。而是把那些洶涌的遠方帶回家,成為手中的柴米油鹽,腳下的尋常巷陌。

如果把這些造物搬到你面前,它們只是棱角分明的機柜。匆忙一瞥,對它的印象一定如紙片一樣輕薄。

但如果安靜下來,把所有的定格連綴成故事,會聽到一條澎湃的河。

三十年前,老一輩技術人之所以把他們的作品稱為“曙光”,寓意已非常明確。而時代變遷,后人也許終究無法重走他們的篳路藍縷。

但一代人有一代人的使命。

山河寬廣,我們永遠需要無盡的算力和存力的護佑。每一個尚未抵達的世界紀錄,不都是新一代技術人譜寫歷史的機會嗎?

在和我聊天時,技術老師傅總是盡量避免華麗的詞匯,他們樸實地解釋自己的參數,講解實現的方案,我聽不懂他們就換個方式再講,怎么說都不膩。

但此刻,回憶那些平淡的對話,我卻如置身扁舟,漂流在那條洶涌的河上。

一個我兒時就會背,但卻用了幾十年才漸漸理解的詩句突然又浮現在腦海:

為什么我的眼里常含淚水,

因為我對這土地愛得深沉。

有人把數據化成歌

有人把它存在山河

再自我介紹一下吧。我叫史中,是一個傾心故事的科技記者。我的日常是和各路大神聊天。如果想和我做朋友,可以搜索微信:shizhongmax

哦對了,如果喜歡文章,請別吝惜你的“在看”“分享”。讓有趣的靈魂有機會相遇,會是一件很美好的事情。

Thx with in Beijing

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
暴雨、大風、冰雹,廣東局地發布預警,多地氣溫下降超10℃!風雨何時減弱?

暴雨、大風、冰雹,廣東局地發布預警,多地氣溫下降超10℃!風雨何時減弱?

廣東衛視
2026-04-23 23:35:47
伊朗就美國利用中東五國領土領空提出抗議

伊朗就美國利用中東五國領土領空提出抗議

環球網資訊
2026-04-23 09:48:08
《八千里路云和月》大結局:5對情侶5種悲劇,丁玉嬌孟萬福最凄慘

《八千里路云和月》大結局:5對情侶5種悲劇,丁玉嬌孟萬福最凄慘

樓蘭娛姐
2026-04-23 19:22:07
預售53分鐘,訂單達1.5萬臺,嵐圖泰山X8預售30.29萬起

預售53分鐘,訂單達1.5萬臺,嵐圖泰山X8預售30.29萬起

財聞
2026-04-22 18:03:57
強迫男下屬提供性服務,辭職的美國女勞工部長,長得丑可玩的花呀

強迫男下屬提供性服務,辭職的美國女勞工部長,長得丑可玩的花呀

俠客棧
2026-04-23 14:52:19
莫迪很快會被打臉,這就是蘋果公司反抗印度政府的底氣所在

莫迪很快會被打臉,這就是蘋果公司反抗印度政府的底氣所在

張鴘喜歡軟軟糯糯
2026-04-21 15:18:14
寧波未來十年格局已定!這四個地方將決定城市的上限

寧波未來十年格局已定!這四個地方將決定城市的上限

荷蘭豆愛健康
2026-04-23 15:57:14
我在中東教漢語,娶了三個本地女孩,雖然年入百萬,卻并不幸福

我在中東教漢語,娶了三個本地女孩,雖然年入百萬,卻并不幸福

千秋文化
2026-04-20 19:55:30
朱婷又奪冠!郎平、姚迪現場見證,中國女排崛起有望,李盈瑩養傷

朱婷又奪冠!郎平、姚迪現場見證,中國女排崛起有望,李盈瑩養傷

曹說體育
2026-04-23 14:41:37
格局太小!樊振東和黃仁勛合照,國際乒聯故意發布樊振東輸給張本智和的比賽

格局太小!樊振東和黃仁勛合照,國際乒聯故意發布樊振東輸給張本智和的比賽

夕落秋山
2026-04-23 17:44:53
榜首易主!曼城反超阿森納登頂,同分同凈勝球進球多3球

榜首易主!曼城反超阿森納登頂,同分同凈勝球進球多3球

懂球帝
2026-04-23 05:03:54
世上最失敗4大工程:損失慘重,中國占倆!卻說有意料之外效果?

世上最失敗4大工程:損失慘重,中國占倆!卻說有意料之外效果?

三毛看世界
2026-04-17 16:43:17
林徽因落選的國徽方案,網友看后感嘆:審美確實厲害,但真不合適

林徽因落選的國徽方案,網友看后感嘆:審美確實厲害,但真不合適

浩渺青史
2026-04-17 13:55:15
全靠老公養著是啥體驗?網友:命好的人就是這樣,羨慕不來的

全靠老公養著是啥體驗?網友:命好的人就是這樣,羨慕不來的

解讀熱點事件
2026-04-19 18:40:24
“職場性侵獲精神工傷認定案”當事人崔麗麗回應“索要250萬元賠償”爭議:均以工資為基準計算,公司毀掉了我17年職業生涯

“職場性侵獲精神工傷認定案”當事人崔麗麗回應“索要250萬元賠償”爭議:均以工資為基準計算,公司毀掉了我17年職業生涯

極目新聞
2026-04-23 20:01:05
頂流超模約會誰牽線?妹妹組局的雙贏生意

頂流超模約會誰牽線?妹妹組局的雙贏生意

心事寄山海
2026-04-22 19:35:40
剛剛,直線猛拉!芯片巨頭,重磅利好!

剛剛,直線猛拉!芯片巨頭,重磅利好!

數據寶
2026-04-23 21:48:38
首次!日本導彈將對艦艇開火!中國:歷史會以相似的邏輯重現!

首次!日本導彈將對艦艇開火!中國:歷史會以相似的邏輯重現!

小莜讀史
2026-04-23 17:15:02
三星頂級旗艦重回低價,從11999元跌至3900元,性價比超越小米

三星頂級旗艦重回低價,從11999元跌至3900元,性價比超越小米

小愚測評
2026-04-23 23:44:43
患難見情誼,普京被逼賣黃金?中方發話:俄賣多少,中方就收多少

患難見情誼,普京被逼賣黃金?中方發話:俄賣多少,中方就收多少

嘴角上翹
2026-04-23 18:08:12
2026-04-24 01:55:00
淺黑科技官方 incentive-icons
淺黑科技官方
科技有溫情
305文章數 22982關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

頭條要聞

以色列:只要美國同意 將刺殺伊朗最高領袖

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

普華永道賠償10億 恒大股東見到"回頭錢"

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

游戲
手機
本地
親子
公開課

任天堂NS2銷量4倍碾壓PS5!差距懸殊 索尼難挽頹勢

手機要聞

vivo X500 Pro Max被曝光:2nm工藝+5GHz,2K直屏九月發!

本地新聞

SAGA GIRLS 2026女團選秀

親子要聞

新華讀報|打乒乓球有助提高兒童注意力

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版