2026年，大模型訓(xùn)練的下半場屬于「強(qiáng)化學(xué)習(xí)云」

2026-01-12 14:03:47　來源: 機(jī)器之心Pro

北京舉報

分享至

編輯｜Panda

2024 年底，硅谷和北京的茶水間里都在討論同一個令人不安的話題：Scaling Law 似乎正在撞墻。

那時候，盡管英偉達(dá)的股價還在狂飆，但多方信源顯示，包括彼時備受期待的 Orion（原計劃的 GPT-5）在內(nèi)，新一代旗艦?zāi)Ｐ驮趩渭冊黾訁?shù)規(guī)模和訓(xùn)練數(shù)據(jù)后，并未展現(xiàn)出預(yù)期的邊際效益提升。另外，也有研究認(rèn)為預(yù)訓(xùn)練所需的數(shù)據(jù)將會很快耗盡，其甚至還預(yù)測了明確的時間節(jié)點：2028 年。

來自論文 arXiv:2211.04325v2

OpenAI 和 Safe Superintelligence Inc 的聯(lián)合創(chuàng)始人 Ilya Sutskever 當(dāng)時還留下了一句意味深長的判詞：「2010 年代是規(guī)模擴(kuò)大的時代，現(xiàn)在人們又回到了奇跡和發(fā)現(xiàn)的時代。」這句話在當(dāng)時被許多人解讀為悲觀的預(yù)警，也就是單純依靠堆砌算力和數(shù)據(jù)的預(yù)訓(xùn)練路線，恐怕已經(jīng)觸到了天花板。

直到 2025 年初，接連的驚喜打破了僵局。

那時候，OpenAI 的 o1 模型已在幾個月前率先引入了強(qiáng)化推理，展示了模型在思考時間換取智能深度上的驚人潛力，證明了 test-time scaling（測試時間擴(kuò)展）是一條通往更高智能的可行路徑。然而，o1 的閉源特性讓這項技術(shù)一度被視為只有巨頭才能掌握的「黑科技」。

2025 年 1 月橫空出世的 DeepSeek R1 將 o1 的技術(shù)路線成功復(fù)現(xiàn)并徹底開源。它的意義不在于從零發(fā)明，而是用極低的成本和開放的姿態(tài)向全行業(yè)證明：Scaling Law 并沒有撞墻，它只是換了引擎

DeepSeek R1 等推理模型的成功揭示了一個事實：深度的推理能力比單純的參數(shù)規(guī)模更關(guān)鍵。通過強(qiáng)化學(xué)習(xí)（RL）驅(qū)動的思維鏈（CoT），模型在后訓(xùn)練階段展現(xiàn)出了類似于人類「慢思考」的推理能力。

DeepSeek-R1 的多階段訓(xùn)練流程，來自 arXiv:2501.12948v2

正如九章云極 DataCanvas AI 首席科學(xué)家繆旭在 2025 算力生態(tài)大會上回顧的那樣：「DeepSeek 的橫空出世，讓我們第一次感覺到，原來強(qiáng)化學(xué)習(xí)可以讓大模型的進(jìn)化速度再次提升。」對于更廣泛的開發(fā)者而言，這種「感覺」正是源于 DeepSeek 拉低了技術(shù)門檻。

看起來，算力的重心正從pre-training scaling（預(yù)訓(xùn)練擴(kuò)展）走向post-train scaling（后訓(xùn)練擴(kuò)展）test-time scaling（測試時間擴(kuò)展）

來自英偉達(dá)博客

在 2026 年的今天，我們已經(jīng)可以確信：大模型訓(xùn)練的下半場屬于強(qiáng)化學(xué)習(xí)

在這個階段，模型不再僅僅是基于海量預(yù)訓(xùn)練數(shù)據(jù)的概率涌現(xiàn)，而是能像人類專家一樣，通過與環(huán)境的交互、試錯和自我博弈，進(jìn)行深度的邏輯推演。

如果說預(yù)訓(xùn)練是培養(yǎng)一個通識教育的畢業(yè)生，那么基于 RL 的后訓(xùn)練就是將其投入真實世界，進(jìn)化成一名真正的專家。然而，新的機(jī)遇也帶來了新的基建危機(jī)：當(dāng)算力的消耗重心從靜態(tài)的訓(xùn)練轉(zhuǎn)向動態(tài)的探索與推理，現(xiàn)有的云計算架構(gòu)開始顯得力不從心。

行業(yè)呼喚一種全新的算力形態(tài)，去承載這種以「進(jìn)化」為核心的新智能。而在這一輪基礎(chǔ)設(shè)施的代際更迭中，誰能率先定義這種形態(tài)，誰就能握住下一個時代的入場券。

基于這一觀察，繆旭在演講中拋出了一個定義未來的公式：「當(dāng)智能可以并行進(jìn)化，強(qiáng)化學(xué)習(xí)云將成為群體智能的放大器。」

這里的關(guān)鍵詞「強(qiáng)化學(xué)習(xí)云」，正是九章云極為應(yīng)對這場范式轉(zhuǎn)移給出的基礎(chǔ)設(shè)施答案。作為獨(dú)立智算云賽道的領(lǐng)軍企業(yè)，九章云極不僅首先提出了這一概念，更通過前瞻性的布局，率先定義了后訓(xùn)練時代的算力標(biāo)準(zhǔn)。

首發(fā)優(yōu)勢

為什么九章云極能定義「強(qiáng)化學(xué)習(xí)云」？

如果說 OpenAI o1 驗證了路徑，DeepSeek R1 引爆了熱潮，那么九章云極則是在最短時間內(nèi)率先給出了基礎(chǔ)設(shè)施答案。

僅僅數(shù)月后的 2025 年 6 月，九章云極便正式發(fā)布了業(yè)界首個工業(yè)級強(qiáng)化學(xué)習(xí)云平臺 Agentic RL

而當(dāng)時，放眼全球，盡管以 Anyscale (Ray) 為代表的硅谷先驅(qū)已經(jīng)在分布式計算框架層面為強(qiáng)化學(xué)習(xí)提供了底層支持，AWS、谷歌等云巨頭也已將 RL 視為通用機(jī)器學(xué)習(xí)平臺（如 SageMaker、Vertex AI）下的一個功能組件或工具包，但整體上主流市場的目光仍主要聚焦于如何構(gòu)建更大的預(yù)訓(xùn)練集群或降低傳統(tǒng)推理（inference 而非 reasoning）成本，尚未有任何一家企業(yè)像九章云極這樣，敏銳地洞察到智能體（Agent）時代的算力特征變革，并將「強(qiáng)化學(xué)習(xí)」獨(dú)立定義為一種全新的工業(yè)級云服務(wù)形態(tài)

這種能夠迅速捕捉前沿算法趨勢，并率先將其轉(zhuǎn)化為標(biāo)準(zhǔn)化、工業(yè)級云產(chǎn)品的能力，正是九章云極在獨(dú)立智算云賽道中確立首發(fā)優(yōu)勢與領(lǐng)軍地位的基礎(chǔ)。

為什么我們需要專門的強(qiáng)化學(xué)習(xí)云？

傳統(tǒng)的云計算架構(gòu)，本質(zhì)上是為靜態(tài)負(fù)載設(shè)計的。無論是 Web 服務(wù)還是傳統(tǒng)的深度學(xué)習(xí)推理（inference），其計算特征相對線性且可預(yù)測。但強(qiáng)化學(xué)習(xí)截然不同，它是一個高頻交互、動態(tài)探索的過程。智能體需要在模擬環(huán)境中進(jìn)行海量的試錯，而這會導(dǎo)致算力需求呈現(xiàn)出劇烈的波峰波谷特征，且對異構(gòu)資源的調(diào)度有著極高的要求。

如果用傳統(tǒng)的靜態(tài)算力去跑 RL 訓(xùn)練，結(jié)果要么資源利用率極低，要么在探索高峰期直接卡死。

針對這一痛點，九章云極并沒有選擇在舊架構(gòu)上打補(bǔ)丁，而是進(jìn)行了系統(tǒng)級的重構(gòu)。其強(qiáng)化學(xué)習(xí)云 Agentic RL 基于混合專家（MoE）架構(gòu)與 Serverless 理念，實現(xiàn)了算力的「按需即取、即用即還」。

數(shù)據(jù)顯示，相比于傳統(tǒng)方案，Agentic RL可將端到端訓(xùn)練效率提升 500%，綜合成本下降 60%。更關(guān)鍵的是，它是全球首個支持萬卡級異構(gòu)算力調(diào)度的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施平臺。這種對大規(guī)模異構(gòu)算力的駕馭能力，標(biāo)志著九章云極已經(jīng)率先完成了從「賣資源」到「賣能力」的進(jìn)化。

Agentic RL：讓通用模型變成專家

顧名思義，Agentic RL 的核心是Agentic（智能體）RL（強(qiáng)化學(xué)習(xí)）。但 Agentic RL 并不只是智能體與強(qiáng)化學(xué)習(xí)的簡單疊加，其內(nèi)涵蘊(yùn)涵了 AI 能力維度的一次關(guān)鍵躍遷：從單純的「內(nèi)容生成」轉(zhuǎn)向復(fù)雜的「決策控制」。

控制」尤為關(guān)鍵。在九章云極看來，無論是供應(yīng)鏈的動態(tài)調(diào)度，還是工業(yè)設(shè)計的精密規(guī)劃，本質(zhì)上都是一個高難度的控制問題。Agentic RL 的核心目標(biāo)，正是通過 RL 賦予大模型這種在動態(tài)環(huán)境中精準(zhǔn)感知、規(guī)劃并執(zhí)行的能力，使其從單純的語言專家進(jìn)化為能解決實際物理世界難題的執(zhí)行者。

正是為了支撐這種「從生成到控制」的能力跨越，在 2025 算力生態(tài)大會上，九章云極 AI 首席科學(xué)家繆旭進(jìn)一步展示了其強(qiáng)化學(xué)習(xí)云背后的 Agentic RL 技術(shù)架構(gòu)。

簡單來說，Agentic RL 的使命是將通用模型進(jìn)化為專家模型，其應(yīng)具備長時程規(guī)劃、長/短期記憶、復(fù)雜工具調(diào)用、檢索增強(qiáng)生成優(yōu)化、角色一致性等多種能力。

基于此，繆旭提出了一個更宏大的終局構(gòu)想：未來的通用人工智能（AGI）可能不會是一個單一的巨型模型，而是由成千上萬個垂類專家智能體組成的「群體智能」。

不同于傳統(tǒng)的強(qiáng)化學(xué)習(xí)，面向群體智能的 Agentic RL 面對的是極度復(fù)雜的目標(biāo)，比如城市規(guī)劃的長時序約束，或工業(yè)設(shè)計的精密系統(tǒng)組合。為了支撐這種高難度的進(jìn)化，九章云極構(gòu)建了一些核心技術(shù)，包括：

極致效能的異步系統(tǒng)：針對 RL 訓(xùn)練中極不穩(wěn)定的負(fù)載特征，九章云極研發(fā)了全異步訓(xùn)練架構(gòu)，通過 rollout 和 n+1 模型更新機(jī)制，成功將 GPU 利用率長期保持在 95% 以上。在算力昂貴的今天，這種工程優(yōu)化直接等同于巨大的成本優(yōu)勢。
5 倍速的離線進(jìn)化：針對強(qiáng)化學(xué)習(xí)樣本利用率低的頑疾，九章云極采用了「基于回放的離線強(qiáng)化學(xué)習(xí)算法」。通過對時間跨度的壓縮與樣本的高效回放，實現(xiàn)了 5 倍于傳統(tǒng)方法的訓(xùn)練速度提升。

安全探索的「世界模型」：在自動駕駛或醫(yī)療等「不能失敗」的領(lǐng)域，九章云極與高校合作構(gòu)建了可控的世界模型。它就像一個高保真的虛擬沙盒，讓智能體在其中放手試錯，解決現(xiàn)實世界「不敢探索」的難題。

Alaya NeW Cloud 的全棧重構(gòu)

九章云極強(qiáng)化學(xué)習(xí)云很強(qiáng)，這離不開其精心構(gòu)建的 Alaya NeW Cloud 智能基礎(chǔ)設(shè)施。

不同于傳統(tǒng)云廠商在通用云上「打補(bǔ)丁」的做法，九章云極從一開始就圍繞智能體的運(yùn)行邏輯，完成了從底層基礎(chǔ)設(shè)施到上層應(yīng)用的四層全棧重構(gòu)。

除了底層技術(shù)的突破，九章云極在工程化落地層面也展現(xiàn)出了驚人的敏捷性。為了讓最前沿的模型能力即刻觸達(dá)用戶，平臺實現(xiàn)了云容器實例 (CCI)的一鍵式部署，全流程覆蓋，即開即用。以 2025 年終壓軸上線的滿血版 DeepSeek-3.2為例，在高端算力卡的加持下，其部署速度更快，運(yùn)行更高效，完美詮釋了平臺對最新 SOTA 模型的快速支持能力。

整體看來，在這個智能體時代，九章云極扮演的角色不再僅僅是互聯(lián)網(wǎng)數(shù)據(jù)中心（IDC）提供商，更是進(jìn)化環(huán)境提供商。

對于開發(fā)者：只要極少代碼即可啟動完整的「訓(xùn)練-推理-回傳」閉環(huán)。
對于產(chǎn)業(yè)：無論是城市規(guī)劃、工業(yè)制造還是自動駕駛，每一個垂直領(lǐng)域的智能體都能在九章智算云上找到專屬的進(jìn)化路徑。

在黃山

打造城市級智算樣板

技術(shù)領(lǐng)先只是起點，能否在復(fù)雜的真實物理世界中落地，才是檢驗「領(lǐng)軍者」成色的試金石。

當(dāng)大多數(shù)智算中心還停留在「建機(jī)房、堆顯卡」的 1.0 階段，九章云極已經(jīng)率先在安徽黃山跑通了「智算+產(chǎn)業(yè)」的 2.0 閉環(huán)。這里不僅有一座算力中心，更有一個正在運(yùn)行的、基于強(qiáng)化學(xué)習(xí)云的城市級實驗樣本。

48 天奇跡，這就是九章速度

在黃山，九章云極創(chuàng)造了一個行業(yè)紀(jì)錄：48 天

是的，僅僅 48 天，一座規(guī)模達(dá) 500 PFLOPS 的「大位」智算中心便拔地而起并投入運(yùn)營。

這種令人咋舌的交付速度，不僅源于九章云極成熟的工程化能力，更驗證了其智算操作系統(tǒng)在異構(gòu)算力調(diào)度上的極致效率。

當(dāng)強(qiáng)化學(xué)習(xí)走進(jìn)「全程 AI 伴游」

「大位」智算中心絕非一座冰冷的機(jī)房，它是國內(nèi)首個「文旅+AI」城市級產(chǎn)業(yè)應(yīng)用基礎(chǔ)設(shè)施。

在這里，九章云極的強(qiáng)化學(xué)習(xí)技術(shù)找到了最復(fù)雜的演練場：人類社會互動。依托算力底座，黃山實現(xiàn)了國內(nèi)首個「全程 AI 伴游」景區(qū)。成千上萬個智能體正在這里學(xué)習(xí)如何理解游客的意圖、規(guī)劃最優(yōu)路線、處理突發(fā)狀況。

這實際上是一場大規(guī)模的 Agentic RL 社會實驗。每一個游客的反饋，都是一次 Reward（獎勵）；每一次路線規(guī)劃，都是一次 Policy（策略）更新。這種在真實高頻場景中打磨出的智能進(jìn)化能力，遠(yuǎn)比實驗室里的數(shù)據(jù)更具商業(yè)價值。

智算經(jīng)濟(jì)：不僅是投入，更是增長引擎

對于城市管理者而言，智算中心往往面臨「建得起、用不起」或「不僅燒電、還燒錢」的質(zhì)疑。九章云極則用數(shù)據(jù)打破了這一魔咒。

在本次大會發(fā)布的《2026 智算賦能城市產(chǎn)業(yè)發(fā)展白皮書》中，黃山被定義為「中小城市智算賦能標(biāo)桿」。易觀分析預(yù)測，隨著「大位」智算中心的全面達(dá)產(chǎn)，每年將直接帶動黃山市營利性服務(wù)業(yè)增加值增長不少于 2 億元。

這一實戰(zhàn)成果，正如九章云極董事長方磊在大會現(xiàn)場所下的判斷：「全球 AI 基建正重構(gòu)生產(chǎn)力底座，算力核心價值在于普惠與落地效能。」黃山模式的成功，正是這一理念的最佳注腳。

通過「智算基建+文旅賦能+場景落地+商業(yè)閉環(huán)」，九章云極證明了強(qiáng)化學(xué)習(xí)云不僅能消耗電力，更能生產(chǎn) GDP。

這種「黃山樣板」正在產(chǎn)生強(qiáng)大的磁吸效應(yīng)。大會現(xiàn)場，中科動力、百鵬互聯(lián)、歌歌 AI 等 6 家 AI 企業(yè)集中簽約落地。它們看中的，正是九章云極所構(gòu)建的這個既有算力底座、又有豐富場景的智算生態(tài)。

從技術(shù)上的「定義者」到商業(yè)上的「破局者」，九章云極用黃山的實踐告訴市場：下一代智算云，必須是能直接驅(qū)動產(chǎn)業(yè)增長的云。

終局思維

獨(dú)立智算云賽道的「頭號玩家」

在 AI 基礎(chǔ)設(shè)施的牌桌上，玩家雖多，但位置截然不同。有的在做「全能選手」（既做模型又做云），有的在做「賣水人」（只賣裸金屬）。而九章云極選擇了一條更為艱難、卻也更為遼闊的道路：做獨(dú)立智算云賽道的領(lǐng)軍者

獨(dú)立：真正開放生態(tài)的基礎(chǔ)

在「百模大戰(zhàn)」向「千行百業(yè)」轉(zhuǎn)型的今天，企業(yè)的顧慮顯而易見：如果我把核心業(yè)務(wù)數(shù)據(jù)交給一個同時也做大模型的云廠商，它會不會既是裁判又是運(yùn)動員？

這就是「獨(dú)立智算云」存在的根本邏輯：中立性

九章云極明確了自己的邊界：不與客戶爭利，不綁定特定模型。

這種「獨(dú)立性」在算力高度集中的當(dāng)下顯得尤為珍貴。針對目前行業(yè)內(nèi)只有不到 10 家巨頭公司掌握 10 萬卡以上資源的現(xiàn)狀，九章云極明確倡導(dǎo)「開源 1000 專家模型」。

他們期望通過動態(tài)組合來放大群體智能，為那 10 萬家中小企業(yè)提供高效的智能化解決方案，讓每一個垂直領(lǐng)域的 Agent 都能在九章智算云上找到專屬的進(jìn)化路徑。

這種「獨(dú)立智算云+開源專家模型」的組合拳，徹底區(qū)別于那些試圖綁定自家閉源大模型的巨頭云廠商，使其更有可能成功構(gòu)建起真正的開放生態(tài)

正如其發(fā)起的 AI-STAR 企業(yè)生態(tài)聯(lián)盟，并沒有排他性的門戶之見，而是連接了上游芯片廠商與下游應(yīng)用廠商，共同組成了一個自主可控的產(chǎn)業(yè)鏈閉環(huán) 。

領(lǐng)軍：從賣算力到定標(biāo)準(zhǔn)

何為領(lǐng)軍？不僅是規(guī)模最大，更是掌握定義規(guī)則的權(quán)力。

在算力計費(fèi)混亂的草莽時代，九章云極率先推出了「1 度算力」的普惠化標(biāo)準(zhǔn)，試圖讓算力像水電一樣可度量、可流通。

而在后訓(xùn)練時代，九章云極再次通過強(qiáng)化學(xué)習(xí)云定義了下一代基礎(chǔ)設(shè)施的標(biāo)準(zhǔn)架構(gòu)：一套包含 Agentic RL 技術(shù)架構(gòu)、Serverless 彈性調(diào)度和異構(gòu)資源管理在內(nèi)的完整操作系統(tǒng)。

這正是九章云極區(qū)別于普通云廠商的核心標(biāo)志。

以領(lǐng)軍之姿

為企業(yè)打造進(jìn)化引擎

2026 年，當(dāng)我們談?wù)撛朴嬎銜r，語境已經(jīng)變了。

如果說過去十年的云計算是「能源時代」，廠商們比拼的是誰的電費(fèi)更便宜；那么未來的十年，我們將進(jìn)入「進(jìn)化時代」，競爭的焦點是誰能讓智能體進(jìn)化得更快、更強(qiáng)。

作為獨(dú)立智算云賽道的領(lǐng)軍企業(yè)，九章云極通過首創(chuàng)的強(qiáng)化學(xué)習(xí)云 Agentic RL，已經(jīng)率先拿到了通往這個新時代的鑰匙。它不僅僅是在提供算力，更是在為在這個星球上即將涌現(xiàn)的無數(shù)硅基智能體，提供進(jìn)化的源動力。

在黃山的數(shù)據(jù)中心里，成千上萬個智能體正在 7x24 小時地自我博弈。對于九章云極而言，這個關(guān)于「進(jìn)化」的故事才剛剛開始。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.