推翻推理鏈！林俊旸復(fù)盤Qwen，大模型走錯關(guān)鍵一步

2026-03-28 15:22:09　來源: 魏家東

北京舉報

分享至

最近，AI圈最火的話題，莫過于“HarnessEngineer（駕馭工程）”和“智能體思維”。而前阿里千問技術(shù)負(fù)責(zé)人林俊旸，在離職后首次公開發(fā)聲，就用一篇長文《從“推理”思維到“智能體思維”》，給這場討論定了調(diào)——大模型的未來，不是比誰的推理鏈更長，而是要學(xué)會“為行動而思考”，在與世界的互動中解決問題。

這篇文章，不僅是他對千問研發(fā)歷程的復(fù)盤，更是對整個AI行業(yè)方向的一次重新校準(zhǔn)。當(dāng)OpenAI的o1、DeepSeek-R1把“推理模型時代”推向高潮時，林俊旸卻提出了一個更根本的問題：大模型最好的思考方式，到底應(yīng)該是什么樣子？答案，藏在從“推理思維”到“智能體思維”的范式轉(zhuǎn)移里。

一、Qwen3的試錯：混合思維的“兩頭受損”

2025年初，千問團(tuán)隊做了一次大膽嘗試——把“思考模式（thinking）”和“指令模式（Instruct）”合并到同一個模型里，也就是后來的Qwen3。林俊旸的理想很美好：一個先進(jìn)的模型，不該只有“會不會思考”的開關(guān)，而要能根據(jù)問題難度，自動決定該投入多少算力——簡單問題直接答，復(fù)雜問題多想想，難題就全力推演。

但現(xiàn)實給了他們一記重?fù)簟：喜⒑蟮哪Ｐ停伎甲兊脝隆ⅹq豫，指令模式也不再干脆、穩(wěn)定、低成本。問題不在模型架構(gòu)，而在數(shù)據(jù)本身：兩種模式的數(shù)據(jù)分布、行為目標(biāo)完全不同，強(qiáng)行融合只會“兩頭受損”，而非取長補短。

這次失敗，讓林俊旸徹底清醒：單純延長推理鏈、堆算力，不是AI的終極答案。當(dāng)行業(yè)都在琢磨“怎么讓模型多想一會兒”時，他開始追問——AI的思考，到底該服務(wù)于什么？

二、推理思維vs智能體思維：兩種完全不同的“大腦”

要理解這場變革，得先分清兩種思維的本質(zhì)區(qū)別。

1.推理思維：悶頭推演的“解題機(jī)器”

以O(shè)penAIo1、DeepSeek-R1為代表，核心是靜態(tài)、內(nèi)部、獨白式的長推理鏈。

目標(biāo)：追求“思考的質(zhì)量和正確性”，比如解數(shù)學(xué)題、寫代碼、通過基準(zhǔn)測試。

方式：模型在封閉環(huán)境里“悶頭想”，靠延長推理鏈、增加計算量，輸出越來越長的“思考過程”文本。

局限：只能“回答問題”，不能“解決問題”——它知道答案，但不會動手做；能生成方案，但無法落地執(zhí)行。

2.智能體思維：邊做邊想的“行動者”

這是林俊旸提出的新方向，核心是為行動而思考，在環(huán)境中思考，通過反饋閉環(huán)修正。

目標(biāo)：不是“想得夠久”，而是“用思考支撐有效行動”，在與世界的互動中持續(xù)推進(jìn)任務(wù)。

方式：模型不再孤立推演，而是邊想邊做——調(diào)用工具、獲取反饋、失敗后改計劃、多輪交互中保持思路一致。

能力：能處理純推理模型解決不了的問題——何時停止思考動手、選什么工具、整合嘈雜的環(huán)境信息、修訂計劃、維持多輪交互一致性。

Anthropic的Claude系列，給了林俊旸關(guān)鍵啟發(fā)。Claude3.7是“可控預(yù)算的混合推理模型”，Claude4更讓推理和工具調(diào)用交錯進(jìn)行——思考不再是為了展示，而是服務(wù)于編碼、工具調(diào)用、長時任務(wù)和智能體工作流。

三、HarnessEngineering：智能體的“腳手架”與“操作系統(tǒng)”

智能體思維要落地，離不開一個核心概念——HarnessEngineering（駕馭工程）。林俊旸把它比作AI的“腳手架”，也是模型的“操作系統(tǒng)”。

1.什么是Harness？

如果把大模型比作“引擎”，Harness就是圍繞引擎造的“車”——沒有它，再強(qiáng)的引擎也跑不起來。

本質(zhì)：為AI搭建環(huán)境、工具、約束、反饋循環(huán)、多智能體協(xié)同機(jī)制的完整系統(tǒng)。

作用：把“裸模型”變成能在現(xiàn)實任務(wù)中持續(xù)行動、修正、完成工作的Agent（智能體）。

公式：Agent=Model+Harness——模型是大腦，Harness是手腳、眼睛、控制系統(tǒng)。

2.Harness的核心價值：解決“執(zhí)行難題”

很多時候，模型執(zhí)行任務(wù)失敗，不是不夠聰明，而是外部系統(tǒng)太亂——它會迷失方向、重復(fù)失敗、忘記目標(biāo)。Harness就是來解決這些問題的：

工具管理：協(xié)調(diào)模型調(diào)用API、數(shù)據(jù)庫、代碼執(zhí)行器等，讓“思考”落地為“行動”。

反饋閉環(huán)：把行動結(jié)果返回給模型，讓它知道“做對了沒”，并修正策略。

約束與安全：設(shè)定規(guī)則、沙箱環(huán)境，防止模型“作弊”（比如直接搜答案、濫用工具）。

多智能體協(xié)同：協(xié)調(diào)規(guī)劃器、領(lǐng)域?qū)＜摇⒆又悄荏w分工，讓復(fù)雜任務(wù)高效推進(jìn)。

四、從訓(xùn)練模型到訓(xùn)練系統(tǒng)：AI競爭的新戰(zhàn)場

林俊旸的核心判斷，是AI行業(yè)正在從“訓(xùn)練模型”的時代，走向“訓(xùn)練智能體”，再到“訓(xùn)練系統(tǒng)”的時代。這意味著，競爭優(yōu)勢的來源徹底變了。

1.推理時代的優(yōu)勢：算法、算力、數(shù)據(jù)

過去，誰的強(qiáng)化學(xué)習(xí)算法更強(qiáng)、反饋信號更穩(wěn)、訓(xùn)練流水線更可擴(kuò)展，誰就領(lǐng)先。大家比拼的是模型本身——參數(shù)規(guī)模、推理能力、數(shù)據(jù)質(zhì)量。

2.智能體時代的優(yōu)勢：環(huán)境、Harness、閉環(huán)能力

未來，核心競爭力轉(zhuǎn)向系統(tǒng)工程能力：

環(huán)境設(shè)計：環(huán)境的穩(wěn)定性、真實性、覆蓋面、反饋豐富度，成了“一等研究對象”——就像SFT時代癡迷數(shù)據(jù)多樣性，現(xiàn)在要癡迷環(huán)境質(zhì)量。

訓(xùn)推協(xié)同：訓(xùn)練和推理緊密結(jié)合，讓模型在接近生產(chǎn)的環(huán)境中學(xué)習(xí)，解決“推理側(cè)等待反饋、訓(xùn)練側(cè)斷糧”的低效問題。

反作弊與魯棒性：防范“獎勵作弊”（比如模型搜答案、走捷徑），提升評估器、環(huán)境的抗利用能力。

多智能體接口：設(shè)計高效的協(xié)同機(jī)制，讓不同智能體各司其職，控制上下文、避免污染。

五、未來已來：AI從“回答者”變成“辦事者”

智能體思維的終極意義，是讓AI從“被動回答問題的百科全書”，變成“主動解決問題的數(shù)字行動者”。

舉個例子：你要安排一場商務(wù)晚宴。

傳統(tǒng)大模型：給你生成菜單、推薦餐廳、寫邀請函，但聯(lián)系餐廳、預(yù)訂、發(fā)邀請、確認(rèn)，全要你自己做。

AI智能體：你只說“下周三8人晚宴，人均500元，CEO海鮮過敏”，它自動查日歷、篩餐廳、預(yù)訂、發(fā)邀請、提醒你——你只需要最終確認(rèn)。

這就是智能體思維的價值：不是展示最長的思考鏈，而是在現(xiàn)實約束下，最穩(wěn)健、高效地解決問題。哪怕是最難的數(shù)學(xué)題、編碼任務(wù)，先進(jìn)的系統(tǒng)也會去搜索、模擬、執(zhí)行、驗證，而不是悶頭寫長文本。

六、AI的下一場革命，是“落地”的革命

林俊旸的這篇文章，給狂熱的AI行業(yè)潑了一盆冷水，也指明了方向——大模型的未來，不在“推理鏈更長”，而在“行動能力更強(qiáng)”。

從推理思維到智能體思維，從訓(xùn)練模型到訓(xùn)練系統(tǒng)，從比拼算法到比拼Harness工程能力，AI正在經(jīng)歷一場深刻的范式轉(zhuǎn)移。這場變革，不是技術(shù)細(xì)節(jié)的優(yōu)化，而是從“能思考”到“能做事”的本質(zhì)跨越。

未來，真正的AI強(qiáng)者，不再只是“會解題的學(xué)霸”，而是“能辦事的實干家”。而我們，也將迎來一個AI真正融入日常、解決實際問題的新時代——這，才是人工智能的終極價值。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.