網易首頁 > 網易號 > 正文 申請入駐

2026年,大模型訓練的下半場屬于「強化學習云」

0
分享至



編輯|Panda

2024 年底,硅谷和北京的茶水間里都在討論同一個令人不安的話題:Scaling Law 似乎正在撞墻。

那時候,盡管英偉達的股價還在狂飆,但多方信源顯示,包括彼時備受期待的 Orion(原計劃的 GPT-5)在內,新一代旗艦模型在單純增加參數規模和訓練數據后,并未展現出預期的邊際效益提升。另外,也有研究認為預訓練所需的數據將會很快耗盡,其甚至還預測了明確的時間節點:2028 年。



來自論文 arXiv:2211.04325v2

OpenAI 和 Safe Superintelligence Inc 的聯合創始人 Ilya Sutskever 當時還留下了一句意味深長的判詞:「2010 年代是規模擴大的時代,現在人們又回到了奇跡和發現的時代。」這句話在當時被許多人解讀為悲觀的預警,也就是單純依靠堆砌算力和數據的預訓練路線,恐怕已經觸到了天花板。

直到 2025 年初,接連的驚喜打破了僵局。

那時候,OpenAI 的 o1 模型已在幾個月前率先引入了強化推理,展示了模型在思考時間換取智能深度上的驚人潛力,證明了 test-time scaling(測試時間擴展)是一條通往更高智能的可行路徑。然而,o1 的閉源特性讓這項技術一度被視為只有巨頭才能掌握的「黑科技」。

2025 年 1 月 橫空出世的 DeepSeek R1 將 o1 的技術路線成功復現并徹底開源。它的意義不在于從零發明,而是用極低的成本和開放的姿態向全行業證明:Scaling Law 并沒有撞墻,它只是換了引擎

DeepSeek R1 等推理模型的成功揭示了一個事實:深度的推理能力比單純的參數規模更關鍵。通過強化學習(RL)驅動的思維鏈(CoT),模型在后訓練階段展現出了類似于人類「慢思考」的推理能力。



DeepSeek-R1 的多階段訓練流程,來自 arXiv:2501.12948v2

正如九章云極 DataCanvas AI 首席科學家繆旭在 2025 算力生態大會上回顧的那樣:「DeepSeek 的橫空出世,讓我們第一次感覺到,原來強化學習可以讓大模型的進化速度再次提升。」對于更廣泛的開發者而言,這種「感覺」正是源于 DeepSeek 拉低了技術門檻。



看起來,算力的重心正從pre-training scaling(預訓練擴展)走向post-train scaling(后訓練擴展)test-time scaling(測試時間擴展)



來自英偉達博客

在 2026 年的今天,我們已經可以確信:大模型訓練的下半場屬于強化學習

在這個階段,模型不再僅僅是基于海量預訓練數據的概率涌現,而是能像人類專家一樣,通過與環境的交互、試錯和自我博弈,進行深度的邏輯推演。

如果說預訓練是培養一個通識教育的畢業生,那么基于 RL 的后訓練就是將其投入真實世界,進化成一名真正的專家。然而,新的機遇也帶來了新的基建危機:當算力的消耗重心從靜態的訓練轉向動態的探索與推理,現有的云計算架構開始顯得力不從心。

行業呼喚一種全新的算力形態,去承載這種以「進化」為核心的新智能。而在這一輪基礎設施的代際更迭中,誰能率先定義這種形態,誰就能握住下一個時代的入場券。

基于這一觀察,繆旭在演講中拋出了一個定義未來的公式:「當智能可以并行進化,強化學習云將成為群體智能的放大器。」

這里的關鍵詞「強化學習云」,正是九章云極為應對這場范式轉移給出的基礎設施答案。作為獨立智算云賽道的領軍企業,九章云極不僅首先提出了這一概念,更通過前瞻性的布局,率先定義了后訓練時代的算力標準。

首發優勢

為什么九章云極能定義「強化學習云」?

如果說 OpenAI o1 驗證了路徑,DeepSeek R1 引爆了熱潮,那么九章云極則是在最短時間內率先給出了基礎設施答案。

僅僅數月后的 2025 年 6 月,九章云極便正式發布了業界首個工業級強化學習云平臺 Agentic RL

而當時,放眼全球,盡管以 Anyscale (Ray) 為代表的硅谷先驅已經在分布式計算框架層面為強化學習提供了底層支持,AWS、谷歌等云巨頭也已將 RL 視為通用機器學習平臺(如 SageMaker、Vertex AI)下的一個功能組件或工具包,但整體上主流市場的目光仍主要聚焦于如何構建更大的預訓練集群或降低傳統推理(inference 而非 reasoning)成本,尚未有任何一家企業像九章云極這樣,敏銳地洞察到智能體(Agent)時代的算力特征變革,并將「強化學習」獨立定義為一種全新的工業級云服務形態

這種能夠迅速捕捉前沿算法趨勢,并率先將其轉化為標準化、工業級云產品的能力,正是九章云極在獨立智算云賽道中確立首發優勢與領軍地位的基礎。

為什么我們需要專門的強化學習云?

傳統的云計算架構,本質上是為靜態負載設計的。無論是 Web 服務還是傳統的深度學習推理(inference),其計算特征相對線性且可預測。但強化學習截然不同,它是一個高頻交互、動態探索的過程。智能體需要在模擬環境中進行海量的試錯,而這會導致算力需求呈現出劇烈的波峰波谷特征,且對異構資源的調度有著極高的要求。

如果用傳統的靜態算力去跑 RL 訓練,結果要么資源利用率極低,要么在探索高峰期直接卡死。

針對這一痛點,九章云極并沒有選擇在舊架構上打補丁,而是進行了系統級的重構。其強化學習云 Agentic RL 基于混合專家(MoE)架構與 Serverless 理念,實現了算力的「按需即取、即用即還」。

數據顯示,相比于傳統方案,Agentic RL可將端到端訓練效率提升 500%,綜合成本下降 60%。更關鍵的是,它是全球首個支持萬卡級異構算力調度的強化學習基礎設施平臺。這種對大規模異構算力的駕馭能力,標志著九章云極已經率先完成了從「賣資源」到「賣能力」的進化。

Agentic RL:讓通用模型變成專家

顧名思義,Agentic RL 的核心是Agentic(智能體)RL(強化學習)。但 Agentic RL 并不只是智能體與強化學習的簡單疊加,其內涵蘊涵了 AI 能力維度的一次關鍵躍遷:從單純的「內容生成」轉向復雜的「決策控制」。

控制」尤為關鍵。在九章云極看來,無論是供應鏈的動態調度,還是工業設計的精密規劃,本質上都是一個高難度的控制問題。Agentic RL 的核心目標,正是通過 RL 賦予大模型這種在動態環境中精準感知、規劃并執行的能力,使其從單純的語言專家進化為能解決實際物理世界難題的執行者。

正是為了支撐這種「從生成到控制」的能力跨越,在 2025 算力生態大會上,九章云極 AI 首席科學家繆旭進一步展示了其強化學習云背后的 Agentic RL 技術架構。



簡單來說,Agentic RL 的使命是將通用模型進化為專家模型,其應具備長時程規劃、長/短期記憶、復雜工具調用、檢索增強生成優化、角色一致性等多種能力。



基于此,繆旭提出了一個更宏大的終局構想:未來的通用人工智能(AGI)可能不會是一個單一的巨型模型,而是由成千上萬個垂類專家智能體組成的「群體智能」。

不同于傳統的強化學習,面向群體智能的 Agentic RL 面對的是極度復雜的目標,比如城市規劃的長時序約束,或工業設計的精密系統組合。為了支撐這種高難度的進化,九章云極構建了一些核心技術,包括:

  • 極致效能的異步系統:針對 RL 訓練中極不穩定的負載特征,九章云極研發了全異步訓練架構,通過 rollout 和 n+1 模型更新機制,成功將 GPU 利用率長期保持在 95% 以上。在算力昂貴的今天,這種工程優化直接等同于巨大的成本優勢。
  • 5 倍速的離線進化:針對強化學習樣本利用率低的頑疾,九章云極采用了「基于回放的離線強化學習算法」。通過對時間跨度的壓縮與樣本的高效回放,實現了 5 倍于傳統方法的訓練速度提升。



  • 安全探索的「世界模型」:在自動駕駛或醫療等「不能失敗」的領域,九章云極與高校合作構建了可控的世界模型。它就像一個高保真的虛擬沙盒,讓智能體在其中放手試錯,解決現實世界「不敢探索」的難題。



Alaya NeW Cloud 的全棧重構

九章云極強化學習云很強,這離不開其精心構建的 Alaya NeW Cloud 智能基礎設施。

不同于傳統云廠商在通用云上「打補丁」的做法,九章云極從一開始就圍繞智能體的運行邏輯,完成了從底層基礎設施到上層應用的四層全棧重構。



除了底層技術的突破,九章云極在工程化落地層面也展現出了驚人的敏捷性。為了讓最前沿的模型能力即刻觸達用戶,平臺實現了云容器實例 (CCI)的一鍵式部署,全流程覆蓋,即開即用。以 2025 年終壓軸上線的滿血版 DeepSeek-3.2為例,在高端算力卡的加持下,其部署速度更快,運行更高效,完美詮釋了平臺對最新 SOTA 模型的快速支持能力。

整體看來,在這個智能體時代,九章云極扮演的角色不再僅僅是互聯網數據中心(IDC)提供商,更是進化環境提供商。

  • 對于開發者:只要極少代碼即可啟動完整的「訓練-推理-回傳」閉環。
  • 對于產業:無論是城市規劃、工業制造還是自動駕駛,每一個垂直領域的智能體都能在九章智算云上找到專屬的進化路徑。

在黃山

打造城市級智算樣板

技術領先只是起點,能否在復雜的真實物理世界中落地,才是檢驗「領軍者」成色的試金石。

當大多數智算中心還停留在「建機房、堆顯卡」的 1.0 階段,九章云極已經率先在安徽黃山跑通了「智算+產業」的 2.0 閉環。這里不僅有一座算力中心,更有一個正在運行的、基于強化學習云的城市級實驗樣本。

48 天奇跡,這就是九章速度

在黃山,九章云極創造了一個行業紀錄:48 天

是的,僅僅 48 天,一座規模達 500 PFLOPS 的「大位」智算中心便拔地而起并投入運營。

這種令人咋舌的交付速度,不僅源于九章云極成熟的工程化能力,更驗證了其智算操作系統在異構算力調度上的極致效率。

當強化學習走進「全程 AI 伴游」

「大位」智算中心絕非一座冰冷的機房,它是國內首個「文旅+AI」城市級產業應用基礎設施。



在這里,九章云極的強化學習技術找到了最復雜的演練場:人類社會互動。依托算力底座,黃山實現了國內首個「全程 AI 伴游」景區。成千上萬個智能體正在這里學習如何理解游客的意圖、規劃最優路線、處理突發狀況。

這實際上是一場大規模的 Agentic RL 社會實驗。每一個游客的反饋,都是一次 Reward(獎勵);每一次路線規劃,都是一次 Policy(策略)更新。這種在真實高頻場景中打磨出的智能進化能力,遠比實驗室里的數據更具商業價值。

智算經濟:不僅是投入,更是增長引擎

對于城市管理者而言,智算中心往往面臨「建得起、用不起」或「不僅燒電、還燒錢」的質疑。九章云極則用數據打破了這一魔咒。

在本次大會發布的《2026 智算賦能城市產業發展白皮書》中,黃山被定義為「中小城市智算賦能標桿」。易觀分析預測,隨著「大位」智算中心的全面達產,每年將直接帶動黃山市營利性服務業增加值增長不少于 2 億元。

這一實戰成果,正如九章云極董事長方磊在大會現場所下的判斷:「全球 AI 基建正重構生產力底座,算力核心價值在于普惠與落地效能。」 黃山模式的成功,正是這一理念的最佳注腳。



通過「智算基建+文旅賦能+場景落地+商業閉環」,九章云極證明了強化學習云不僅能消耗電力,更能生產 GDP。

這種「黃山樣板」正在產生強大的磁吸效應。大會現場,中科動力、百鵬互聯、歌歌 AI 等 6 家 AI 企業集中簽約落地。它們看中的,正是九章云極所構建的這個既有算力底座、又有豐富場景的智算生態。

從技術上的「定義者」到商業上的「破局者」,九章云極用黃山的實踐告訴市場:下一代智算云,必須是能直接驅動產業增長的云。

終局思維

獨立智算云賽道的「頭號玩家」

在 AI 基礎設施的牌桌上,玩家雖多,但位置截然不同。有的在做「全能選手」(既做模型又做云),有的在做「賣水人」(只賣裸金屬)。而九章云極選擇了一條更為艱難、卻也更為遼闊的道路:做獨立智算云賽道的領軍者

獨立:真正開放生態的基礎

在「百模大戰」向「千行百業」轉型的今天,企業的顧慮顯而易見:如果我把核心業務數據交給一個同時也做大模型的云廠商,它會不會既是裁判又是運動員?

這就是「獨立智算云」存在的根本邏輯:中立性

九章云極明確了自己的邊界:不與客戶爭利,不綁定特定模型。



這種「獨立性」在算力高度集中的當下顯得尤為珍貴。針對目前行業內只有不到 10 家巨頭公司掌握 10 萬卡以上資源的現狀,九章云極明確倡導「開源 1000 專家模型」。

他們期望通過動態組合來放大群體智能,為那 10 萬家中小企業提供高效的智能化解決方案,讓每一個垂直領域的 Agent 都能在九章智算云上找到專屬的進化路徑 。



這種「獨立智算云+開源專家模型」的組合拳,徹底區別于那些試圖綁定自家閉源大模型的巨頭云廠商 ,使其更有可能成功構建起真正的開放生態

正如其發起的 AI-STAR 企業生態聯盟,并沒有排他性的門戶之見,而是連接了上游芯片廠商與下游應用廠商,共同組成了一個自主可控的產業鏈閉環 。

領軍:從賣算力到定標準

何為領軍?不僅是規模最大,更是掌握定義規則的權力。

在算力計費混亂的草莽時代,九章云極率先推出了 「1 度算力」 的普惠化標準,試圖讓算力像水電一樣可度量、可流通。



而在后訓練時代,九章云極再次通過強化學習云定義了下一代基礎設施的標準架構:一套包含 Agentic RL 技術架構、Serverless 彈性調度和異構資源管理在內的完整操作系統。

這正是九章云極區別于普通云廠商的核心標志。

以領軍之姿

為企業打造進化引擎

2026 年,當我們談論云計算時,語境已經變了。

如果說過去十年的云計算是「能源時代」,廠商們比拼的是誰的電費更便宜;那么未來的十年,我們將進入「進化時代」,競爭的焦點是誰能讓智能體進化得更快、更強。

作為獨立智算云賽道的領軍企業,九章云極通過首創的強化學習云 Agentic RL,已經率先拿到了通往這個新時代的鑰匙。它不僅僅是在提供算力,更是在為在這個星球上即將涌現的無數硅基智能體,提供進化的源動力。

在黃山的數據中心里,成千上萬個智能體正在 7x24 小時地自我博弈。對于九章云極而言,這個關于「進化」的故事才剛剛開始。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
震驚!洛陽某職業學院高調官宣10名畢業生入職肯德基,引發爭議

震驚!洛陽某職業學院高調官宣10名畢業生入職肯德基,引發爭議

火山詩話
2026-04-24 16:29:11
美國不要的,中國也堅決不要!

美國不要的,中國也堅決不要!

阿七說史
2026-04-24 05:00:03
多國拋售黃金?金價后市怎么走?

多國拋售黃金?金價后市怎么走?

證券時報e公司
2026-04-25 22:10:42
特斯拉中國:官方版擴展塢上架了,售價 249 元!

特斯拉中國:官方版擴展塢上架了,售價 249 元!

新浪財經
2026-04-25 15:53:30
敵人不是中國,70人要扒總統皮,特朗普連發4文,賀錦麗殺回政壇

敵人不是中國,70人要扒總統皮,特朗普連發4文,賀錦麗殺回政壇

生活魔術專家
2026-04-25 15:58:04
都不新鮮!繼被注射藥物、關曉彤事件后,王陽也被曝出猛料

都不新鮮!繼被注射藥物、關曉彤事件后,王陽也被曝出猛料

科學發掘
2026-04-26 09:25:52
無視兩大名帥!切爾西鎖定"瓜迪奧拉 2.0 ",傳奇或將回歸

無視兩大名帥!切爾西鎖定"瓜迪奧拉 2.0 ",傳奇或將回歸

一隅非生
2026-04-26 06:47:41
山西女籃3外援為何不敵單外四川?于琦末節一次錯誤用人葬送冠軍

山西女籃3外援為何不敵單外四川?于琦末節一次錯誤用人葬送冠軍

南海浪花
2026-04-26 07:07:58
浙江:一個遍布山區的省份,為啥這么有錢?山區反倒成了優勢

浙江:一個遍布山區的省份,為啥這么有錢?山區反倒成了優勢

賤議你讀史
2026-04-26 08:50:03
籌碼集中!最新股東戶數環比減少20%以上的公司一覽(2026.4.26)

籌碼集中!最新股東戶數環比減少20%以上的公司一覽(2026.4.26)

A股數據表
2026-04-26 07:10:06
局勢改寫!韓國瑜大獲全勝,鄭麗文才是關鍵?朱立倫落敗原因曝光

局勢改寫!韓國瑜大獲全勝,鄭麗文才是關鍵?朱立倫落敗原因曝光

小嵩
2026-04-25 05:08:17
愛德華茲回防時落地左膝過度伸展,已返回更衣室

愛德華茲回防時落地左膝過度伸展,已返回更衣室

懂球帝
2026-04-26 10:17:07
特斯拉將迎來重磅更新,太猛了!

特斯拉將迎來重磅更新,太猛了!

花果科技
2026-04-23 15:08:15
中紀委整治隱形違規,體制內3類灰色福利全面取消無例外

中紀委整治隱形違規,體制內3類灰色福利全面取消無例外

細說職場
2026-04-25 13:58:00
范思哲晚宴生圖:被邊走邊“提胸”的高葉嚇到了,皮松肉垮大濃妝

范思哲晚宴生圖:被邊走邊“提胸”的高葉嚇到了,皮松肉垮大濃妝

小徐講八卦
2026-04-24 06:11:56
萬人合唱《海闊天空》響徹夜空,比賽雙方互贈家鄉特產

萬人合唱《海闊天空》響徹夜空,比賽雙方互贈家鄉特產

南方都市報
2026-04-26 07:08:09
摸景甜胸側,抱李雪琴胳膊,31歲的他綜藝翻車,為何如此沒分寸感

摸景甜胸側,抱李雪琴胳膊,31歲的他綜藝翻車,為何如此沒分寸感

草莓解說體育
2026-04-15 04:23:51
小姐姐穿著一身簡約的打扮,坐在樓梯上的樣子看著優雅又有女人味

小姐姐穿著一身簡約的打扮,坐在樓梯上的樣子看著優雅又有女人味

牛彈琴123456
2026-04-19 20:50:06
小米公司發言人:網絡用戶李某華捏造、散布雷軍的謠言 公安機關已抓獲

小米公司發言人:網絡用戶李某華捏造、散布雷軍的謠言 公安機關已抓獲

快科技
2026-04-26 10:05:07
白宮記協晚宴安全事件細節披露:嫌疑人持霰彈槍試圖突破安保

白宮記協晚宴安全事件細節披露:嫌疑人持霰彈槍試圖突破安保

新京報
2026-04-26 10:27:05
2026-04-26 10:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12852文章數 142636關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

頭條要聞

牛彈琴:伊朗放了美國人鴿子 特朗普被氣壞了

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

旅游
本地
藝術
健康
公開課

旅游要聞

非遺流量變消費增量 “馬上入川·蜀你好玩”第二季四川中江啟動

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

藝術要聞

鄭麗文訪問清華附中引發熱議,蔣中正信札字跡真實性遭質疑

干細胞如何讓燒燙傷皮膚"再生"?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版