无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

HuggingFace CEO力薦:這個(gè)1500美元訓(xùn)出的HRM模型,憑什么火了?

0
分享至

允中 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI

好家伙,這次不是模型圈自嗨。

一個(gè)訓(xùn)練成本約1500美元、參數(shù)量約1B、從零開始預(yù)訓(xùn)練的小模型,把HRM推到了下一代推理架構(gòu)討論的中心。

HuggingFace聯(lián)合創(chuàng)始人兼CEO Clem Delangue親自轉(zhuǎn)發(fā)推薦。

圖靈獎(jiǎng)得主Yoshua Bengio作為共同作者參與的新論文,也走向了同一條latent recursive reasoning路線。

更反常的是,它不是蒸餾,不是微調(diào),也不是在已有大模型能力上套殼。

它就是Sapient Intelligence發(fā)布的HRM-Text



如果只看參數(shù)量,它很容易被寫成一個(gè)熟悉的故事:“小模型又贏了?!?/p>

但HRM-Text真正值得注意的地方,不是小,也不是便宜。而是它背后那套HRM架構(gòu),正在問一個(gè)更底層的問題:

模型到底需要記住全世界,還是需要學(xué)會(huì)如何思考、如何查找、如何驗(yàn)證、如何行動(dòng)?

過去幾年,大模型行業(yè)的默認(rèn)答案很簡單:參數(shù)更多,數(shù)據(jù)更多,訓(xùn)練更久,Token更長。

HRM走的是另一條路。

它不是繼續(xù)把模型做成一個(gè)越來越大的知識(shí)倉庫,而是試圖把模型做成一個(gè)更強(qiáng)的推理核心。

大模型像一個(gè)背著圖書館的學(xué)生,HRM更像一個(gè)會(huì)解題、會(huì)查資料、會(huì)復(fù)盤、會(huì)行動(dòng)的人。

當(dāng)然,真正讓技術(shù)圈認(rèn)真討論HRM-Text的,不是一次轉(zhuǎn)發(fā),而是一組很反常的數(shù)字。



一個(gè)約1B參數(shù)模型,在MATH上拿到56.2,在GSM8K上拿到84.5,在ARC-Challenge上拿到81.9,在DROP上拿到82.2。

訓(xùn)練成本約1500美元,16塊H100跑了不到兩天。

沒有post-training,沒有RLHF,也沒有依賴顯式思維鏈數(shù)據(jù)。團(tuán)隊(duì)同步開放了論文、模型權(quán)重和預(yù)訓(xùn)練代碼。

這意味著,HRM-Text不是在現(xiàn)有大模型能力上做包裝,而是在基礎(chǔ)預(yù)訓(xùn)練階段,直接驗(yàn)證一種新的架構(gòu)路線。

這不是又一個(gè)“小模型逆襲”的故事。更準(zhǔn)確地說,它是一次推理模型的換腦實(shí)驗(yàn):

不讓模型說出更多思維鏈,而是讓模型在開口之前,先在腦子里想完。

而這條路線,很快也出現(xiàn)在了更高層級(jí)的學(xué)術(shù)討論中。

HRM-Text發(fā)布前后,圖靈獎(jiǎng)得主Yoshua Bengio作為共同作者參與發(fā)布了《Generative Recursive Reasoning》。論文提出的GRAM,在核心計(jì)算結(jié)構(gòu)上高度復(fù)用了HRM的分層遞歸骨架:同樣是高層狀態(tài)、低層狀態(tài)、雙時(shí)間尺度、多輪遞歸更新,只是在此基礎(chǔ)上進(jìn)一步加入概率生成模塊。

換句話說,Sapient不是等行業(yè)給出答案之后再追隨,而是先把一個(gè)關(guān)鍵問題拋了出來,并率先拿出了可運(yùn)行、可開源、可驗(yàn)證的模型系統(tǒng):

模型能否在輸出之前,通過潛空間中的多輪分層遞歸計(jì)算,完成更深層的內(nèi)部推理?

HRM-Text的問題因此不只是:

一個(gè)1B模型為什么能做到這些benchmark?

更關(guān)鍵的問題是:

Sapient是否提前驗(yàn)證了一條下一代推理模型值得認(rèn)真對(duì)待的新路線?

知識(shí)不等于智能,CoT也不等于思考

現(xiàn)在的推理模型,很多時(shí)候像是在“邊說邊想”。

Chain-of-Thought把推理過程寫成一串token,讓模型一步一步輸出中間過程。

這當(dāng)然有用,但問題也很明顯:

Token越來越長,賬單越來越高;中間一步錯(cuò)了,后面就可能一路錯(cuò)下去;更關(guān)鍵的是,推理過程被綁定在語言表面,模型很容易學(xué)到“像推理的文本”,卻不一定真的掌握了“推理的結(jié)構(gòu)”。

HRM問的是一個(gè)更激進(jìn)的問題:推理為什么一定要寫出來?

人類做很多題,并不是把腦內(nèi)每一步都說成一句話。我們會(huì)在腦子里反復(fù)嘗試、修正、排除、回退,最后才說出答案。

HRM想做的,正是這件事:把草稿紙從嘴上拿下來,放回模型的腦子里。

這就是latent reasoning,潛空間推理。不是讓模型輸出更長的思維鏈,而是讓模型在輸出之前,在內(nèi)部狀態(tài)里完成多輪計(jì)算。

這也是Sapient 從一開始押注HRM的原因。

Sapient押注的從來不是“小模型”,而是HRM(Hierarchical Reasoning Model),分層推理模型。

在大多數(shù)團(tuán)隊(duì)仍然圍繞Transformer做參數(shù)、數(shù)據(jù)和訓(xùn)練技巧優(yōu)化時(shí),Sapient選擇把問題推到更底層:

如果智能不是只來自規(guī)模擴(kuò)張,而是來自計(jì)算過程的組織方式,那么模型架構(gòu)本身是否應(yīng)該被重新設(shè)計(jì)?

HRM的核心思想,是讓模型在輸出之前,能夠在潛空間中進(jìn)行多輪、分層、遞歸的狀態(tài)更新。



2025年,Sapient推出HRM-Symbolic。

這個(gè)模型主要面向數(shù)獨(dú)、迷宮、ARC-AGI等封閉、可驗(yàn)證、強(qiáng)推理任務(wù)。這類任務(wù)有明確規(guī)則、明確狀態(tài)空間、可驗(yàn)證答案,對(duì)組合搜索和多步推理要求極高。

因此,它們非常適合回答第一個(gè)問題:

分層遞歸推理這條架構(gòu)路線,到底能不能行?

HRM的原始論文里,一個(gè)27M參數(shù)模型在沒有預(yù)訓(xùn)練、沒有CoT數(shù)據(jù)、只用約1000個(gè)訓(xùn)練樣本的情況下,在Sudoku-Extreme、Maze-Hard和ARC-AGI等強(qiáng)推理任務(wù)上取得了非常突出的結(jié)果。

這一步先回答了一個(gè)問題:

在封閉、可驗(yàn)證、強(qiáng)推理任務(wù)里,HRM這條路線能不能行?

答案是:能。

但這還不夠,因?yàn)閿?shù)獨(dú)不是語言,迷宮也不是開放世界。

于是HRM-Text回答了第二個(gè)更難的問題:

當(dāng)任務(wù)進(jìn)入自然語言世界,HRM還行不行?

這比簡單放大模型更難。

因?yàn)檎Z言不是數(shù)獨(dú)。語言更開放、更模糊、更知識(shí)密集,輸出形式更靈活,訓(xùn)練也更容易不穩(wěn)定。

所以HRM-Text的意義,不是把HRM-Symbolic放大一點(diǎn)而已。

它是在驗(yàn)證分層遞歸推理這套架構(gòu),能不能進(jìn)入基礎(chǔ)語言模型。

從HRM-Symbolic到HRM-Text,Sapient做的不是一次模型發(fā)布,而是一條技術(shù)路線的連續(xù)推進(jìn):

先在封閉推理任務(wù)中驗(yàn)證架構(gòu)假設(shè),再把架構(gòu)擴(kuò)展到開放語言環(huán)境,同步開放論文、代碼、模型權(quán)重和訓(xùn)練方法,讓這條路線可以被復(fù)現(xiàn)、質(zhì)疑、比較和繼續(xù)驗(yàn)證。

這也是Sapient應(yīng)該被放到更重要位置的原因。

它不是在追隨行業(yè)已有的答案,而是在提前提出問題,并把一個(gè)原本可能停留在理論討論中的方向,推進(jìn)成了可運(yùn)行、可開源、可驗(yàn)證的模型系統(tǒng)。

HRM的核心:模型里面長出兩個(gè)腦區(qū)

標(biāo)準(zhǔn)Transformer更像一條流水線,輸入進(jìn)來,一層一層往前走,每一層處理一次,最后輸出。

增加能力的一種直接方式,就是增加層數(shù)、參數(shù)和訓(xùn)練數(shù)據(jù)。

HRM的思路不一樣,它在模型內(nèi)部放了兩個(gè)以不同節(jié)奏工作的模塊:

一個(gè)是高層模塊H,一個(gè)是低層模塊L。你可以把它理解成兩個(gè)腦區(qū)。



H是戰(zhàn)略腦。它更新得慢,負(fù)責(zé)把握整體方向、維持長期上下文、決定當(dāng)前應(yīng)該往哪里想。

L是執(zhí)行腦。它更新得快,負(fù)責(zé)局部計(jì)算、細(xì)節(jié)修正、一步步把問題往前推。

關(guān)鍵在于,H和L不是兩個(gè)外部Agent,也不是兩個(gè)模型互相發(fā)消息。它們?cè)谕粋€(gè)神經(jīng)網(wǎng)絡(luò)里,在同一個(gè)潛空間中,反復(fù)更新同一份內(nèi)部狀態(tài)。這就是HRM和普通“多智能體套殼”的區(qū)別。

普通多智能體系統(tǒng),很多時(shí)候是幾個(gè)LLM用自然語言互相聊天。HRM則是在模型內(nèi)部完成分層遞歸計(jì)算。

可以打個(gè)比方:標(biāo)準(zhǔn)Transformer像一篇文章依次交給30個(gè)編輯,每個(gè)人只改一次。HRM更像兩組編輯反復(fù)打磨同一份稿子:一組快速改細(xì)節(jié),一組慢慢把握整體方向。最后輸出之前,模型已經(jīng)在腦內(nèi)完成了多輪修正。

這也是HRM-Text和普通小模型最大的區(qū)別:

它不是只靠參數(shù)數(shù)量獲得能力,而是讓有限參數(shù)參與更深的有效計(jì)算。

HuggingFace模型卡也把HRM-Text描述為H/L雙時(shí)間尺度遞歸架構(gòu):高層slow、低層fast,在同一輸入embedding上反復(fù)迭代,從而在有限參數(shù)量下獲得更深的有效計(jì)算。

換句話說,HRM-Text不是在模型外面拼接一個(gè)規(guī)劃器,而是把分層遞歸計(jì)算內(nèi)建進(jìn)模型本身。

它改變的是模型“怎么算”

參數(shù)沒有無限變大,但計(jì)算過程變深了。這就像一個(gè)人不是多背幾本書,而是學(xué)會(huì)了在腦子里多轉(zhuǎn)幾圈。

HRM-Text到底做對(duì)了什么?

如果把HRM-Text講得太技術(shù),很容易變成論文摘要。

但它真正做對(duì)的事,可以用三句話講清楚。

第一,它改變了模型“怎么算”。

HRM-Text不是簡單堆更多層,而是讓模型在輸出前做多輪內(nèi)部遞歸計(jì)算。參數(shù)沒有無限變大,但計(jì)算過程變深了。

第二,它改變了模型“學(xué)什么”。

大多數(shù)語言模型訓(xùn)練時(shí),會(huì)預(yù)測整個(gè)文本序列里的每一個(gè)token。

問題、提示、上下文、答案,統(tǒng)統(tǒng)要預(yù)測。

HRM-Text更直接,它用instruction-response數(shù)據(jù)從零訓(xùn)練,但只對(duì)回答部分計(jì)算損失。

這不意味著指令部分沒有用。指令仍然作為上下文參與注意力計(jì)算,回答部分的損失也會(huì)反向影響模型如何理解指令。

但模型不再被要求學(xué)習(xí)“預(yù)測題目本身”,而是把訓(xùn)練信號(hào)更集中地用于生成答案、完成任務(wù)。

直觀理解就是,老師批卷子時(shí),不再給“抄題”打分,只看你答得對(duì)不對(duì)。這樣訓(xùn)練信號(hào)會(huì)更集中地落在任務(wù)完成上,而不是平均分散在整段文本里。

這背后配套的是PrefixLM attention mask

指令部分可以充分整合上下文;回答部分再按因果生成方式輸出。結(jié)果就是,在decoder-only的實(shí)現(xiàn)里,做出了一種近似encoder-decoder的效果。

這部分的關(guān)鍵不是“少預(yù)測一些token”這么簡單,而是訓(xùn)練信號(hào)被重新分配了。模型更集中地學(xué)習(xí)如何完成任務(wù),而不是平均地學(xué)習(xí)整個(gè)文本序列。



第三,它解決了遞歸訓(xùn)練容易崩的問題。

遞歸架構(gòu)不是新概念。

難點(diǎn)在于,循環(huán)越深,訓(xùn)練越容易不穩(wěn)定。同一組模塊被反復(fù)調(diào)用后,激活值方差可能累積,梯度也更容易消失或爆炸。

HRM-Text引入MagicNormwarmup deep credit assignment,讓模型在多輪遞歸中保持激活穩(wěn)定,并逐步加深信用分配。

通俗講,不是一上來就讓模型為所有深層遞歸步驟負(fù)責(zé)。而是先讓它學(xué)會(huì)短路徑上的內(nèi)部計(jì)算,再慢慢把責(zé)任擴(kuò)展到更深的推理過程。

這說明HRM-Text不是簡單把同一層重復(fù)跑幾遍,而是在系統(tǒng)性解決遞歸計(jì)算如何進(jìn)入語言模型的問題。

這三件事合起來,才是HRM-Text的核心:

  • 架構(gòu)負(fù)責(zé)“怎么想”。
  • 目標(biāo)負(fù)責(zé)“學(xué)什么”。
  • 訓(xùn)練方法負(fù)責(zé)“想得深還不崩”。

所以HRM-Text不是一個(gè)單點(diǎn)trick,它是一套新的基礎(chǔ)模型設(shè)計(jì)方法,把內(nèi)部計(jì)算深度、任務(wù)完成目標(biāo)和穩(wěn)定遞歸訓(xùn)練放在同一個(gè)系統(tǒng)里共同設(shè)計(jì)。

光說不練假把式,HRM-Text的幾個(gè)改動(dòng)疊加后,帶來了明顯提升。

在相同訓(xùn)練FLOPs條件下,ARC-Challenge從51.9提升到81.9;MATH從35.4提升到56.2;GSM8K從48.4提升到84.5。

這說明HRM-Text的表現(xiàn)不是來自某個(gè)單點(diǎn)trick,而是架構(gòu)、訓(xùn)練目標(biāo)和訓(xùn)練方法共同作用的結(jié)果。

它真正做對(duì)的,是把模型“怎么算”、“學(xué)什么”、“如何穩(wěn)定訓(xùn)練”放在一起重新設(shè)計(jì)。

這也是Sapient這套路線和普通小模型路線最大的區(qū)別:

它不是單純把模型做小,而是重新定義了有限參數(shù)如何參與更深層的內(nèi)部計(jì)算。

數(shù)據(jù)量上,HRM-Text僅使用約40B unique tokens訓(xùn)練??紤]重復(fù)采樣后,實(shí)驗(yàn)表中的總訓(xùn)練量約60B tokens。

對(duì)比下來,Llama 3.2 3B使用約9T tokens,是它的225倍;Qwen3系列2B使用約36T tokens,更是達(dá)到約900倍量級(jí)。



但在多個(gè)reasoning-heavy benchmarks上,HRM-Text已經(jīng)可以和一批2B到7B的主流開源模型放到同一張表里比較。



這才是HRM-Text真正反常的地方:

它不是用更多參數(shù)、更長訓(xùn)練、更大數(shù)據(jù),把舊路線繼續(xù)往前推一點(diǎn)。用新的計(jì)算結(jié)構(gòu),把有限參數(shù)的有效計(jì)算深度重新拉起來。

當(dāng)然,HRM-Text這樣的結(jié)果,一定會(huì)引發(fā)外界對(duì)訓(xùn)練數(shù)據(jù)和評(píng)測數(shù)據(jù)污染的關(guān)注。Sapient對(duì)此做了系統(tǒng)驗(yàn)證。

HRM-Text只使用公開且可追溯來源的數(shù)據(jù)進(jìn)行訓(xùn)練,并針對(duì)評(píng)測集進(jìn)行了嚴(yán)格的數(shù)據(jù)污染分析。在更嚴(yán)格的clean split條件下,模型仍然保持優(yōu)勢結(jié)果。

這說明它的表現(xiàn)不是來自簡單的測試集泄漏,而是來自架構(gòu)和訓(xùn)練方法本身的提升。

也正因此,HRM-Text的意義不是“1B模型已經(jīng)贏了”。

而是它讓行業(yè)看到了:模型能力增長,除了參數(shù)、數(shù)據(jù)和算力之外,也許還有另一個(gè)更底層的變量——計(jì)算結(jié)構(gòu)。

更大的信號(hào):Bengio團(tuán)隊(duì)也開始走向同一條路

HRM-Text發(fā)布前后,還有一個(gè)很值得注意的信號(hào)。

圖靈獎(jiǎng)得主Yoshua Bengio作為共同作者參與了Generative Recursive Reasoning Models,也就是GRAM



這篇論文不是繼續(xù)在傳統(tǒng)Transformer上堆規(guī)模,而是把recursive reasoning、latent reasoning和generative modeling放到了一起。

更準(zhǔn)確地說,GRAM不是泛泛意義上的“相似方向”,而是在核心計(jì)算骨架上高度復(fù)用了HRM的設(shè)計(jì)。

對(duì)比兩者結(jié)構(gòu)可以看到,HRM 中最關(guān)鍵的幾個(gè)元素,在GRAM中幾乎都能找到對(duì)應(yīng)關(guān)系。

第一,高層狀態(tài)

HRM 有高層模塊H,用于維持更慢、更穩(wěn)定、更全局的語義狀態(tài)。

GRAM中同樣存在high-level latent state/high-level recurrent state,用于建模更高層級(jí)的推理狀態(tài)。

第二,低層狀態(tài)

HRM有低層模塊L,用于快速更新局部計(jì)算和細(xì)節(jié)狀態(tài)。

GRAM中也有l(wèi)ow-level latent state/low-level recurrent state,用于承擔(dān)更細(xì)粒度的遞歸更新。

第三,雙時(shí)間尺度。

HRM的核心是H/L雙時(shí)間尺度:低層模塊多次更新,高層模塊較慢更新。

GRAM同樣采用高低層狀態(tài)之間的遞歸交互,形成分層、多步的內(nèi)部計(jì)算過程。

第四,潛空間遞歸。

HRM不是通過外部文本鏈條完成推理,而是在潛空間中反復(fù)更新內(nèi)部狀態(tài)。

GRAM也把推理過程放在latent space中進(jìn)行遞歸生成,而不是簡單依賴顯式文本CoT。

第五,輸出前的內(nèi)部計(jì)算。

HRM強(qiáng)調(diào)模型在輸出前先進(jìn)行多輪內(nèi)部計(jì)算,GRAM同樣強(qiáng)調(diào)recursive reasoning,即模型在生成前通過遞歸狀態(tài)更新形成更深的推理過程。

換句話說,GRAM并不是另起爐灶。如果去掉GRAM外層新增的概率生成模塊,它的底層計(jì)算邏輯與HRM高度重合:高層狀態(tài)、低層狀態(tài)、潛空間遞歸、多輪內(nèi)部更新。

這不是簡單的“方向相似”,而是核心架構(gòu)假設(shè)上的高度一致。



當(dāng)然,GRAM并不只是簡單重復(fù)HRM。

它在HRM的確定性遞歸骨架之上,加入了prior、posterior、decoder等概率生成模塊,把原本的分層遞歸推理進(jìn)一步擴(kuò)展成概率化、多軌跡的生成式推理框架。

如果說HRM先提出并驗(yàn)證了“高層—低層雙時(shí)間尺度遞歸推理”這條路線,那么GRAM更像是在這個(gè)骨架上增加了一層generative probabilistic wrapper,讓模型能夠圍繞多個(gè)潛在推理軌跡進(jìn)行生成和采樣。

這也是為什么GRAM的出現(xiàn),反而讓HRM的重要性更突出。它不是繞開HRM另起爐灶,而是在HRM已經(jīng)提出并驗(yàn)證的分層遞歸骨架上繼續(xù)加入概率生成機(jī)制。

換句話說,Sapient先把“高層—低層雙時(shí)間尺度遞歸推理”做成了可運(yùn)行系統(tǒng),GRAM則把這套骨架進(jìn)一步包裝成概率化、多軌跡的生成式推理框架。

這意味著,Sapient不只是參與了下一代推理模型的討論,而是提前給出了一個(gè)正在被頂尖研究者復(fù)用和擴(kuò)展的基本結(jié)構(gòu)。

在這個(gè)意義上,Sapient的HRM已經(jīng)不只是一個(gè)模型架構(gòu)名詞,而開始成為下一代推理模型研究中的一個(gè)參照系。

因此,Sapien在這里的位置不應(yīng)該被寫成“一個(gè)被 Bengio點(diǎn)贊的小模型團(tuán)隊(duì)”。更準(zhǔn)確的寫法是:

Sapient率先把HRM這套分層遞歸推理架構(gòu)做成了可運(yùn)行、可開源、可驗(yàn)證的模型系統(tǒng);而Bengio參與的GRAM,則進(jìn)一步說明這套架構(gòu)思想已經(jīng)被全球頂尖AI研究者看見,并被快速吸收進(jìn)下一代推理模型的研究框架中。

從這個(gè)角度看,HRM-Text的意義不只是一個(gè)1B模型跑出了好成績,而是Sapient提前押中了一條正在被頂尖研究跟進(jìn)的架構(gòu)路線。

它不是一個(gè)孤立的小模型,它更像是一個(gè)早期信號(hào):

AI推理正在從“寫出思維鏈”,轉(zhuǎn)向“形成內(nèi)部思維結(jié)構(gòu)”。

下一代推理模型,不應(yīng)該只靠輸出更長的文字鏈條,而應(yīng)該在潛空間中進(jìn)行更深的內(nèi)部計(jì)算。

HRM的貢獻(xiàn),是先把高層—低層雙時(shí)間尺度遞歸推理做成了可運(yùn)行、可開源、可驗(yàn)證的模型系統(tǒng)。GRAM則進(jìn)一步把這種遞歸潛空間推理推進(jìn)到概率生成、多軌跡采樣的方向。

如果說HRM先提出并驗(yàn)證了“模型在輸出前進(jìn)行分層遞歸推理”的骨架,那么GRAM更像是在這條路線之上加入了generative probabilistic wrapper。

這也是HRM-Text這次值得被放到更重要位置的原因。

它不是一個(gè)孤立的小模型,它更像是下一代推理架構(gòu)正在轉(zhuǎn)向的信號(hào)。

1500美元真正打破的,不只是訓(xùn)練成本

1500美元當(dāng)然不是終點(diǎn),它也不意味著基礎(chǔ)模型研發(fā)已經(jīng)變得簡單。

HRM-Text仍然只是Proof of Concept。

它還不是成熟聊天模型,也沒有經(jīng)過完整的post-training、RLHF或大規(guī)模產(chǎn)品化驗(yàn)證。它在知識(shí)覆蓋、真實(shí)開放任務(wù)表現(xiàn)、長上下文能力、工具使用能力、規(guī)模化能力等方面,都還需要繼續(xù)檢驗(yàn)。

但這個(gè)數(shù)字真正刺痛行業(yè)的地方在于:它讓基礎(chǔ)模型研發(fā)重新出現(xiàn)了另一種可能性。



過去幾年,基礎(chǔ)模型越來越像一項(xiàng)重工業(yè)。更大的GPU集群,更長的訓(xùn)練周期,更復(fù)雜的數(shù)據(jù)工程。于是行業(yè)很容易形成一種慣性:

只有巨頭才能探索基礎(chǔ)模型、只有巨額算力才能驗(yàn)證新架構(gòu)、只有Scaling才是唯一正解。

HRM-Text的出現(xiàn)不是否定Scaling,Scaling仍然強(qiáng)大。

但它提醒行業(yè):Scaling不是唯一入口。

如果模型架構(gòu)本身能提高計(jì)算效率,如果訓(xùn)練目標(biāo)能更聚焦,如果模型能把知識(shí)存儲(chǔ)和推理能力解耦,那么基礎(chǔ)模型創(chuàng)新就不一定只能由算力規(guī)模定義。

對(duì)企業(yè)來說,當(dāng)前AI落地面臨的核心問題,不只是模型能力不夠,而是訓(xùn)練貴、基礎(chǔ)設(shè)施重、迭代周期慢、試錯(cuò)成本高。

很多企業(yè)并不需要從零訓(xùn)練一個(gè)巨型通用模型。它們真正需要的是在特定任務(wù)上獲得更高效、更可控、更可定制的推理能力。它們需要的是:能讀懂企業(yè)私有知識(shí)、能找到正確資料、能分析復(fù)雜系統(tǒng)、能調(diào)用工具、能做規(guī)劃、能驗(yàn)證結(jié)果、能在特定任務(wù)上持續(xù)學(xué)習(xí)。

HRM-Text提供的啟發(fā)是:

如果模型架構(gòu)本身能夠提高計(jì)算效率,那么企業(yè)AI能力建設(shè)不必完全依賴更大模型和更重基礎(chǔ)設(shè)施。

對(duì)研究社區(qū)來說,HRM-Text的意義則在于,它讓更多架構(gòu)假設(shè)有機(jī)會(huì)被驗(yàn)證。

過去幾年,基礎(chǔ)模型研發(fā)越來越像一項(xiàng)重工業(yè)。更大的GPU集群、更長的訓(xùn)練周期、更復(fù)雜的數(shù)據(jù)工程,讓大學(xué)實(shí)驗(yàn)室、創(chuàng)業(yè)團(tuán)隊(duì)、獨(dú)立研究者和開源社區(qū),很難直接參與基礎(chǔ)模型層面的前沿實(shí)驗(yàn)。

真正令人擔(dān)心的不是成本本身,而是許多不同的技術(shù)可能性,可能會(huì)在進(jìn)入充分驗(yàn)證之前就被過濾掉。

當(dāng)一條路線需要巨額資源才能驗(yàn)證時(shí),行業(yè)自然更容易沿著最確定、最主流、最資源密集的方向前進(jìn)。而那些更早期、更冒險(xiǎn)、也可能更具突破性的架構(gòu)假設(shè),往往更難獲得足夠?qū)嶒?yàn)機(jī)會(huì)。

Sapient的意義在于,它沒有等到巨頭先驗(yàn)證這條路線,而是率先把另一種前沿AI路徑做成了可以被行業(yè)檢驗(yàn)的樣本。

它沒有否定Scaling的力量,但它讓行業(yè)看到,基礎(chǔ)模型創(chuàng)新并不只能被算力規(guī)模定義。

架構(gòu)、訓(xùn)練目標(biāo)、遞歸計(jì)算和開源驗(yàn)證,同樣可以成為推動(dòng)前沿AI的關(guān)鍵力量。

從這個(gè)意義上看,HRM-Text的價(jià)值,不是證明小模型會(huì)取代大模型,而是提醒行業(yè):

前沿AI不應(yīng)該只有一種入口。

HRM的下一步:不是更會(huì)聊天,而是更會(huì)工作

Sapient對(duì)HRM的長期判斷,可以概括成一句話:

模型不需要記住一切,但需要學(xué)會(huì)如何思考、如何查找、如何學(xué)習(xí)、如何使用信息。

這就是reasoning-knowledge decoupling。

初期,它可以像RAG一樣,把外部知識(shí)接進(jìn)來。但更進(jìn)一步,HRM的目標(biāo)不是簡單檢索文檔,而是讓模型擁有一個(gè)更強(qiáng)的推理核心:

知道該查什么,知道去哪里查,知道如何判斷信息是否可靠,知道如何把新知識(shí)學(xué)進(jìn)當(dāng)前任務(wù),知道如何制定計(jì)劃、調(diào)用工具、驗(yàn)證結(jié)果,知道如何把一個(gè)復(fù)雜任務(wù)真正做完。

這和人更接近。

人也不是把世界上所有知識(shí)都背在腦子里。真正聰明的人,是知道問題的結(jié)構(gòu),知道該找誰、查什么、怎么驗(yàn)證、如何行動(dòng)。

未來,它可以作為底層推理內(nèi)核Reasoning Core,扮演很多角色。

比如Reliability Diagnostician:診斷復(fù)雜系統(tǒng)穩(wěn)定性,生成root-cause hypothesis,分析依賴關(guān)系、blast radius和rollback plan,并執(zhí)行安全remediation。

比如System Optimizer:分析系統(tǒng)行為、發(fā)現(xiàn)性能瓶頸和資源浪費(fèi),自動(dòng)提出或執(zhí)行優(yōu)化計(jì)劃。

比如Data Organizer:把企業(yè)內(nèi)部雜亂知識(shí)、文檔、日志、數(shù)據(jù)庫和工作流組織成可檢索、可推理、可學(xué)習(xí)的記憶系統(tǒng)。

比如Tool Calling Director:決定什么時(shí)候調(diào)用哪個(gè)工具、API、模型或數(shù)據(jù)源,規(guī)劃調(diào)用順序,驗(yàn)證中間結(jié)果,直到任務(wù)完成。

這就是HRM和普通聊天模型的區(qū)別。

聊天模型的核心問題是:怎么回答用戶?

HRM更關(guān)心的問題是:怎么完成任務(wù)?

從這個(gè)角度看,HRM的商業(yè)價(jià)值也不只是“訓(xùn)練更便宜”。更重要的是,它可能改變企業(yè)構(gòu)建AI能力的方式。

過去,企業(yè)想要更強(qiáng)AI,往往只能接入更大的通用模型,再通過提示詞、RAG、工具鏈和Agent框架,把模型能力拼接到業(yè)務(wù)流程里。

但這種方式的問題也很明顯:系統(tǒng)越來越復(fù)雜,調(diào)用鏈越來越長,成本越來越高,結(jié)果也越來越難驗(yàn)證。

HRM想象的是另一種結(jié)構(gòu):

底層是更強(qiáng)的推理核心;外部接入知識(shí)庫、工具、記憶和環(huán)境反饋;模型不需要記住一切,但需要知道如何組織任務(wù)、如何使用信息、如何驗(yàn)證結(jié)果。

這也意味著,HRM的下一步,不只是更會(huì)聊天,而是更會(huì)工作。

從符號(hào)到文本,再到世界模型

HRM的路線也不止語言。

Sapient先從symbolic reasoning開始,用數(shù)獨(dú)、迷宮、ARC-AGI這類封閉、可驗(yàn)證任務(wù)證明分層遞歸推理能跑通。

然后推進(jìn)到HRM-Text,把這套架構(gòu)帶進(jìn)自然語言模型。

下一步,很自然就是image、video、audio、robotics和world models。

因?yàn)镠RM處理的不是某一種數(shù)據(jù)格式,它處理的是更底層的東西:狀態(tài)、關(guān)系、約束、計(jì)劃、行動(dòng)、反饋。

這也是為什么HRM具備omni-modal潛力。

符號(hào)、文本、圖像、視頻、音頻、機(jī)器人傳感器數(shù)據(jù),本質(zhì)上都可以變成模型內(nèi)部的狀態(tài)空間。

如果HRM能在不同模態(tài)中學(xué)習(xí)“如何組織狀態(tài)、如何預(yù)測變化、如何規(guī)劃行動(dòng)”,它就不只是語言模型,而可能成為世界模型的一種候選架構(gòu)。

這也是embodied AI最需要的能力。

機(jī)器人不能只會(huì)回答。機(jī)器人需要理解環(huán)境,預(yù)測后果,制定動(dòng)作,并在失敗后修正。

對(duì)這樣的系統(tǒng)來說,輸出一句漂亮的話沒有意義。

真正重要的是:想清楚,然后做對(duì)。

所以,HRM-Text的意義并不止于語言模型。它更像是Sapient把HRM從符號(hào)推理推向開放語言環(huán)境的一次階段性驗(yàn)證。

如果這條路線繼續(xù)成立,那么HRM的下一步就不只是文本,而可能是更廣義的世界建模:理解狀態(tài)如何變化、理解行動(dòng)如何產(chǎn)生后果、理解計(jì)劃如何被執(zhí)行、理解失敗如何被修正。

這也是為什么,HRM的想象空間不應(yīng)被局限在“小模型”這個(gè)標(biāo)簽里。

真正重要的是,它試圖為智能系統(tǒng)提供一個(gè)更強(qiáng)的內(nèi)部計(jì)算結(jié)構(gòu)。

Lean General Intelligence:AI的未來不該只有一條路

更進(jìn)一步看,HRM背后是Sapient對(duì)通用智能的一種長期判斷:

先進(jìn)AI的探索,不應(yīng)該只是一條被資源規(guī)模不斷加固的單一路徑,而應(yīng)該是一場由更多研究者、開發(fā)者、創(chuàng)業(yè)團(tuán)隊(duì)和開源社區(qū)共同推進(jìn)的技術(shù)進(jìn)程。

Sapient可以把自己的長期路線概括為:Lean General Intelligence。



這里的Lean,不是“小”,也不是便宜,而是更高效、更可及、更強(qiáng)調(diào)計(jì)算結(jié)構(gòu)本身。

過去幾年,行業(yè)已經(jīng)充分證明了Scaling的力量。但現(xiàn)在,另一個(gè)問題正在變得越來越重要:

當(dāng)訓(xùn)練成本越來越高,Token賬單越來越重,Agent越來越復(fù)雜,企業(yè)越來越需要可控、可驗(yàn)證、可定制的智能系統(tǒng)時(shí),繼續(xù)擴(kuò)大模型是不是唯一答案?

HRM給出了另一個(gè)答案。

不是讓模型背下更多知識(shí),而是讓模型擁有更強(qiáng)的推理核心;不是讓模型輸出更長CoT,而是讓模型在潛空間中完成更深計(jì)算;不是把所有能力都塞進(jìn)一個(gè)黑箱大模型,而是把推理、知識(shí)、工具、記憶和行動(dòng)重新組織起來。

這就是HRM-Text最重要的意義。

它不是證明1B模型已經(jīng)贏了,它證明的是AI架構(gòu)還遠(yuǎn)遠(yuǎn)沒有定型。

如果說過去幾年,行業(yè)主線是Scaling。

那么接下來,推理模型可能迎來一個(gè)新問題:

模型到底要更大,還是要更會(huì)思考?

Sapient的答案,是HRM

而HRM-Text,是這條路線第一次進(jìn)入基礎(chǔ)語言模型語境后的公開樣本。它還早,但它足夠重要。

因?yàn)樗嵝颜麄€(gè)行業(yè):AI的未來,不應(yīng)該只有一條路。

更大的模型會(huì)繼續(xù)重要,但更會(huì)思考的模型,可能才是下一輪推理架構(gòu)真正的入口。

從HRM-Symbolic到HRM-Text,再到Bengio參與的GRAM對(duì)HRM骨架的高度復(fù)用,分層遞歸推理已經(jīng)不再只是Sapient的內(nèi)部路線,而正在成為下一代推理模型的重要方向。

Sapient的意義,也正在于此:

它不是在追隨行業(yè)已有的答案,而是在提前給出一個(gè)可運(yùn)行、可開源、可驗(yàn)證的新答案。

如果說過去幾年,行業(yè)已經(jīng)充分證明了Scaling的力量,那么Sapient正在提醒行業(yè):AI的未來不應(yīng)該只有一條路。

而Sapient Intelligence,正是在這條新路上最早給出完整答案的先行者之一。

論文鏈接:
https://arxiv.org/abs/2605.20613
GitHub鏈接:
https://github.com/sapientinc/HRM-Text
HuggingFace鏈接:
https://huggingface.co/sapientinc/HRM-Text-1B

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
59歲港星陳錦鴻自曝已立遺囑,所有財(cái)產(chǎn)都會(huì)給太太,立遺囑時(shí)帶著自閉癥兒子一同前往,“讓他知道為什么要這么做”

59歲港星陳錦鴻自曝已立遺囑,所有財(cái)產(chǎn)都會(huì)給太太,立遺囑時(shí)帶著自閉癥兒子一同前往,“讓他知道為什么要這么做”

揚(yáng)子晚報(bào)
2026-06-12 14:54:35
小米尋天SUV輪轂曝光:經(jīng)典米字標(biāo)設(shè)計(jì)首次亮相

小米尋天SUV輪轂曝光:經(jīng)典米字標(biāo)設(shè)計(jì)首次亮相

閃存獵手
2026-06-12 02:13:17
《主角》收官僅2天,張嘉譯發(fā)聲,釋放2大信號(hào),給竇驍提了個(gè)醒

《主角》收官僅2天,張嘉譯發(fā)聲,釋放2大信號(hào),給竇驍提了個(gè)醒

鍋鍋愛歷史
2026-06-13 19:57:40
央八開播!諜戰(zhàn)劇《諜報(bào)上不封頂》定檔,肖戰(zhàn)領(lǐng)銜,又有大劇看了

央八開播!諜戰(zhàn)劇《諜報(bào)上不封頂》定檔,肖戰(zhàn)領(lǐng)銜,又有大劇看了

不似少年游
2026-06-13 09:36:29
粽子賣不動(dòng)了?核心就這4個(gè)原因,說到心坎里了

粽子賣不動(dòng)了?核心就這4個(gè)原因,說到心坎里了

江江食研社
2026-06-12 17:30:10
李想官宣理想L8:一臺(tái)不做任何妥協(xié)的五座旗艦SUV 舒適度看齊邁巴赫

李想官宣理想L8:一臺(tái)不做任何妥協(xié)的五座旗艦SUV 舒適度看齊邁巴赫

快科技
2026-06-12 12:03:26
一聲嘆息,林詩棟、溫瑞博都止步薩格勒布16強(qiáng),都輸?shù)煤懿环?>
    </a>
        <h3>
      <a href=真理是我親戚
2026-06-13 01:25:43
“貴州富婆”楊小娟:嫁三婚演員呂良偉,婚后生一子,幸福美滿

“貴州富婆”楊小娟:嫁三婚演員呂良偉,婚后生一子,幸福美滿

飄飄然的娛樂匯
2026-06-09 20:10:04
彭德懷去世后,朱德對(duì)著空氣流淚質(zhì)問:一個(gè)要死的人有啥可怕的?

彭德懷去世后,朱德對(duì)著空氣流淚質(zhì)問:一個(gè)要死的人有啥可怕的?

大運(yùn)河時(shí)空
2026-06-12 21:25:03
老伴走后,那天我翻看錄像,在監(jiān)控里看見兒子偷偷給我磕頭

老伴走后,那天我翻看錄像,在監(jiān)控里看見兒子偷偷給我磕頭

言言說
2026-06-12 20:59:45
屬牛人:必須警惕這兩個(gè)人,他們是你的“克星”

屬牛人:必須警惕這兩個(gè)人,他們是你的“克星”

牛鍋巴小釩
2026-06-13 20:50:17
交易被凍結(jié),中方剛禁止入境,菲防長氣急敗壞,說了句很好笑的話

交易被凍結(jié),中方剛禁止入境,菲防長氣急敗壞,說了句很好笑的話

小豹子找食物
2026-06-13 03:46:39
人倫之亂:正在悄悄撕裂萬千中國家庭的隱形黑洞

人倫之亂:正在悄悄撕裂萬千中國家庭的隱形黑洞

大熊歡樂坊
2026-06-09 18:01:35
克星之名徹底坐實(shí)!王星昊三斬申真谞,中韓棋迷均認(rèn)清現(xiàn)實(shí)!

克星之名徹底坐實(shí)!王星昊三斬申真谞,中韓棋迷均認(rèn)清現(xiàn)實(shí)!

L76號(hào)
2026-06-13 17:18:03
卡塔爾1-1平局引尷尬,球迷討論中國申辦世界杯需慎重

卡塔爾1-1平局引尷尬,球迷討論中國申辦世界杯需慎重

墨史軒
2026-06-13 06:31:17
鵝腿阿姨真正可怕的地方

鵝腿阿姨真正可怕的地方

燕梳樓頻道
2026-06-12 14:09:06
17.98萬買路虎攬勝極光L,香不香?

17.98萬買路虎攬勝極光L,香不香?

優(yōu)視汽車
2026-06-13 16:54:53
曝烏克蘭跨境攻入俄羅斯領(lǐng)土!精準(zhǔn)摧毀庫爾斯克指揮中心

曝烏克蘭跨境攻入俄羅斯領(lǐng)土!精準(zhǔn)摧毀庫爾斯克指揮中心

項(xiàng)鵬飛
2026-06-12 18:24:42
絕殺!德比斯最后時(shí)刻反超領(lǐng)頭羊,奪下賽季第六冠

絕殺!德比斯最后時(shí)刻反超領(lǐng)頭羊,奪下賽季第六冠

湘楚風(fēng)云聊體育
2026-06-13 21:25:41
印度游客的尷尬真相:泰國痛下殺手取消免簽,自己人連夜警告?

印度游客的尷尬真相:泰國痛下殺手取消免簽,自己人連夜警告?

寰球經(jīng)緯所
2026-06-12 14:55:59
2026-06-13 22:12:49
量子位 incentive-icons
量子位
追蹤人工智能動(dòng)態(tài)
12787文章數(shù) 176495關(guān)注度
往期回顧 全部

科技要聞

SpaceX上市首日破2萬億美元,馬斯克再封神

頭條要聞

國企領(lǐng)導(dǎo)疑在辦公室飲酒被紀(jì)委人員突擊檢查 官方回應(yīng)

頭條要聞

國企領(lǐng)導(dǎo)疑在辦公室飲酒被紀(jì)委人員突擊檢查 官方回應(yīng)

體育要聞

美國4比1巴拉圭:這統(tǒng)治力真是美國隊(duì)?!

娛樂要聞

鄧超曬孫儷親手織的帽子,笑瘋?cè)W(wǎng)!

財(cái)經(jīng)要聞

梁文鋒向左,楊植麟向右

汽車要聞

深藍(lán)S07華為乾崑激光版增程車型上市 限時(shí)15.49萬元起

態(tài)度原創(chuàng)

旅游
本地
健康
公開課
軍事航空

旅游要聞

夏天就該這樣過!大別山的夏天,從霍山大峽谷漂流的第一聲尖叫開始。

本地新聞

AK劉彰邂逅河北南大港濕地

老人、小孩、孕婦,吃粽子有啥風(fēng)險(xiǎn)

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

伊外長披露伊美諒解備忘錄草案部分內(nèi)容

無障礙瀏覽 進(jìn)入關(guān)懷版