網易首頁 > 網易號 > 正文 申請入駐

字節Seed團隊發布循環語言模型Ouro,在預訓練階段直接「思考」

0
分享至



機器之心報道

機器之心編輯部

現代 LLM 通常依賴顯式的文本生成過程(例如「思維鏈」)來進行「思考」訓練。這種策略將推理任務推遲到訓練后的階段,未能充分挖掘預訓練數據中的潛力。

為解決這一問題,字節 Seed 團隊聯合多家機構推出了Ouro,一類被稱為循環語言模型(Looped Language Models)的新型預訓練模型,其名稱源于象征循環與自我吞噬的「銜尾蛇」(Ouroboros)。

Ouro 另辟蹊徑通過(i)在潛在空間中進行迭代計算,(ii)采用熵正則化目標以實現學習型深度分配,以及(iii)擴展至 7.7T tokens 的數據規模,將推理能力直接構建到了預訓練階段。 這些設計使得模型能夠在預訓練階段直接學習和構建推理能力,而非僅依賴后期微調。



  • 論文標題:Scaling Latent Reasoning via Looped Language Models
  • 論文地址:https://arxiv.org/pdf/2510.25741
  • 項目主頁:https://ouro-llm.github.io/
  • HuggingFace:https://huggingface.co/collections/ByteDance/ouro

通過對照實驗,研究者發現 Ouro 的性能提升并非源于知識存儲量的增加,而是得益于其更高效的知識操控與推理能力。進一步分析表明,Ouro 的潛在推理過程相比標準 LLM,更接近真實的人類推理機制。



Ouro 循環語言模型的性能。(左)參數共享的循環架構。(中與右)雷達圖比較了 Ouro 1.4B 與 2.6B 模型(均采用 4 個循環步,紅色)與單獨的 Transformer 基線模型。我們的模型表現出強勁性能,可與更大規模的基線模型相媲美,甚至在部分任務上超越它們。

最終,Ouro 的 1.4B 和 2.6B 參數規模的 LoopLM,分別能在幾乎所有基準測試中達到與 4B 和 8B 標準 Transformer 相當的性能,實現了 2–3 倍的參數效率提升,顯示了其在數據受限時代下作為一種新型擴展路徑的潛力。



在高級推理基準測試中的表現。Ouro-Thinking 系列模型與強大的基線模型(如 Qwen3 和 DeepSeek-Distill)進行對比。Ouro-1.4B-Thinking R4 的性能可與 4B 規模模型相媲美,而 Ouro-2.6B-Thinking R4 在多個數學與科學數據集上的表現達到或超越了 8B 規模模型。

另外,LoopLM 架構在 HEx-PHI 基準上顯著降低了有害性,且隨著循環步數(包括外推步)增加,模型的安全性進一步提升。與傳統的 CoT 方法不同,研究者的迭代潛變量更新機制產生的是因果一致的推理過程,而非事后的合理化解釋。

循環架構

LoopLM 架構的靈感來源于「通用 Transformer」。其核心思想是在一個固定的參數預算內實現「動態計算」。具體而言,該架構包含一個由 N 個共享權重層組成的「層堆棧」。

在模型的前向傳播過程中,這個共享的層堆棧會被循環應用多次,即經歷多個「循環步驟」。這種設計將模型的計算規模從「參數數量」解耦到了「計算深度」。

該架構的關鍵特性是其自適應計算能力。它集成了一個學習到的「退出門」,當模型處理輸入時:簡單輸入可能會在經歷較少的循環步驟后就提前退出,從而節省計算資源;復雜輸入則會自然地被分配更多的迭代次數,以進行更深層的處理。

這種迭代重用被視為一種「潛在推理」。與 CoT 在外部生成顯式文本步驟不同,LoopLM 是在模型的內部隱藏狀態中構建了一個「潛在思想鏈」。每一次循環都是對表征的逐步精煉,從而在不增加參數的情況下提升了模型的知識操縱能力。

訓練流程

Ouro 的訓練流程是一個多階段過程,總共使用了 7.7T tokens 的數據。

如圖 4 所示,該流程始于一個通用的預熱階段,隨后是使用 3T token 的初始穩定訓練階段。在此之后,模型通過「upcycling」策略分支為 1.4B 和 2.6B 兩種參數規模的變體。



兩種變體均獨立經歷后續四個相同的訓練階段:第二次穩定訓練(3T token)、CT 退火(CT Annealing, 1.4T token)、用于長上下文的 LongCT(20B token)以及中途訓練(Mid-Training, 300B token)。

這個過程產生了 Ouro-1.4B 和 Ouro-2.6B 兩個基礎模型。最后,為了強化特定能力,模型還額外經歷了一個專門的推理監督微調階段,以創造出專注于推理的 Ouro-Thinking 系列模型。

在訓練穩定性方面,團隊發現最初使用 8 個循環步驟會導致損失尖峰等不穩定問題,因此在后續階段將循環步驟減少到 4,以此在計算深度和穩定性之間取得了平衡。

為了讓模型學會何時「提前退出」,訓練流程采用了新穎的兩階段目標:



循環語言模型架構概覽。

左圖為訓練階段。在訓練過程中,模型使用共享參數的 N 層堆疊結構,并執行 n 個循環步驟(R = 1 到 R = n)。在每個循環步驟 i,一個退出門預測退出概率 p?,而語言建模頭 L? 則計算對應的任務損失。 訓練目標函數結合了所有循環步驟的期望任務損失,并加入熵正則化項 H(p?,…,p?),以鼓勵模型探索不同的計算深度。



特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
真相曝光!日本真子公主逃離紐約,懷抱嬰兒現身康州:徹底平民化

真相曝光!日本真子公主逃離紐約,懷抱嬰兒現身康州:徹底平民化

奇怪的鯊魚們
2026-04-21 14:18:34
臺日混血士兵遭連長罵“死日本鬼子” 顧立雄回應了。

臺日混血士兵遭連長罵“死日本鬼子” 顧立雄回應了。

荊楚寰宇文樞
2026-04-21 22:47:47
一個王行環倒下,中南醫院多少護士終于能睡個踏實覺了

一個王行環倒下,中南醫院多少護士終于能睡個踏實覺了

劉哥談體育
2026-04-20 18:21:59
人為什么要戒色

人為什么要戒色

今夜無局
2026-04-20 16:37:17
定了!中國隊進“死亡之組”!

定了!中國隊進“死亡之組”!

五星體育
2026-04-22 01:19:29
彭總在哈軍工用餐時,一學員同坐,責問陳賡:他有什么資格坐這?

彭總在哈軍工用餐時,一學員同坐,責問陳賡:他有什么資格坐這?

小莜讀史
2026-04-20 15:17:58
廣東順德繅絲女工蘇姑:33萬持格力19年,賺超1200萬成傳奇

廣東順德繅絲女工蘇姑:33萬持格力19年,賺超1200萬成傳奇

真實人物采訪
2026-04-20 22:00:03
泰國潑水節一名15歲少女遭軍人尾隨進公廁性侵,監控曝光,嫌疑人已投案自首,將被移送軍事法庭

泰國潑水節一名15歲少女遭軍人尾隨進公廁性侵,監控曝光,嫌疑人已投案自首,將被移送軍事法庭

揚子晚報
2026-04-21 22:25:47
林彪得知前未婚妻賣鞋為生,托人送去3000元,汪靜宜:他還沒忘我

林彪得知前未婚妻賣鞋為生,托人送去3000元,汪靜宜:他還沒忘我

歷史龍元閣
2026-04-10 13:30:19
重慶軌道環線全線通車!市民通勤疑惑終于得解,背后原因揭曉

重慶軌道環線全線通車!市民通勤疑惑終于得解,背后原因揭曉

小蜜情感說
2026-04-22 14:25:31
李修賢談萬梓良現狀:酒吧駐場不丟人,為人仗義,事業婚姻都不順

李修賢談萬梓良現狀:酒吧駐場不丟人,為人仗義,事業婚姻都不順

以茶帶書
2026-04-14 16:39:49
看是御姐,臉還能打,肉卻 “軟趴趴” 了

看是御姐,臉還能打,肉卻 “軟趴趴” 了

飛娛日記
2026-03-13 11:31:29
五大常任理事國里,為啥只有中國沒有海外飛地?

五大常任理事國里,為啥只有中國沒有海外飛地?

文史達觀
2026-04-22 06:45:14
鞏俐亮相人工智能電影節!60歲黑金穿搭封神,松弛氣場碾壓全場

鞏俐亮相人工智能電影節!60歲黑金穿搭封神,松弛氣場碾壓全場

點點細語
2026-04-22 09:56:46
他是導致臺灣難以收復的關鍵人物,若不是他,臺灣或許早就解放了

他是導致臺灣難以收復的關鍵人物,若不是他,臺灣或許早就解放了

觀史搜尋著
2026-04-17 22:43:50
空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙幾十億

空軍全軍覆沒?伊朗突亮地下底牌!美以傻眼了,就這樣被騙幾十億

琨玉秋霜
2026-04-21 00:11:13
速度夠快!拉科塞維奇已到廣東基地,神情輕松,可出戰收官戰!

速度夠快!拉科塞維奇已到廣東基地,神情輕松,可出戰收官戰!

籃球資訊達人
2026-04-22 12:26:49
蔣介石親下密令:除掉這個女人,哪怕她肚子里還懷著我的骨肉

蔣介石親下密令:除掉這個女人,哪怕她肚子里還懷著我的骨肉

棠棣分享
2026-03-24 12:05:26
林徽因落選的國徽方案,網友看后感嘆:審美確實厲害,但真不合適

林徽因落選的國徽方案,網友看后感嘆:審美確實厲害,但真不合適

浩渺青史
2026-04-17 13:55:15
至今都沒辦法超越的經典——中國鐵路路徽,是如何被設計出來的

至今都沒辦法超越的經典——中國鐵路路徽,是如何被設計出來的

鶴羽說個事
2026-04-21 22:12:58
2026-04-22 15:20:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
12829文章數 142633關注度
往期回顧 全部

科技要聞

對話梅濤:沒有視頻底座,具身智能走不遠

頭條要聞

媒體:特朗普關上了談判的大門 雙方就只剩下一個選項

頭條要聞

媒體:特朗普關上了談判的大門 雙方就只剩下一個選項

體育要聞

網易傳媒再度簽約法國隊和阿根廷隊

娛樂要聞

復婚無望!baby黃曉明陪小海綿零交流

財經要聞

伊朗拒絕出席 特朗普宣布延長停火期限

汽車要聞

純電續航301km+激光雷達 宋Pro DM-i飛馳版9.99萬起

態度原創

藝術
健康
時尚
教育
親子

藝術要聞

無花不風景

干細胞抗衰4大誤區,90%的人都中招

頂流復工,已判若兩人

教育要聞

“難怪窮女孩嫁不到真少爺”,高鐵小少爺事件,撕碎普通家長幻想

親子要聞

飛鶴,困在“人海戰術”里

無障礙瀏覽 進入關懷版