![]()
最近,AI圈最火的話題,莫過于“HarnessEngineer(駕馭工程)”和“智能體思維”。而前阿里千問技術(shù)負(fù)責(zé)人林俊旸,在離職后首次公開發(fā)聲,就用一篇長文《從“推理”思維到“智能體思維”》,給這場討論定了調(diào)——大模型的未來,不是比誰的推理鏈更長,而是要學(xué)會“為行動而思考”,在與世界的互動中解決問題。
這篇文章,不僅是他對千問研發(fā)歷程的復(fù)盤,更是對整個AI行業(yè)方向的一次重新校準(zhǔn)。當(dāng)OpenAI的o1、DeepSeek-R1把“推理模型時代”推向高潮時,林俊旸卻提出了一個更根本的問題:大模型最好的思考方式,到底應(yīng)該是什么樣子?答案,藏在從“推理思維”到“智能體思維”的范式轉(zhuǎn)移里。
一、Qwen3的試錯:混合思維的“兩頭受損”
2025年初,千問團(tuán)隊做了一次大膽嘗試——把“思考模式(thinking)”和“指令模式(Instruct)”合并到同一個模型里,也就是后來的Qwen3。林俊旸的理想很美好:一個先進(jìn)的模型,不該只有“會不會思考”的開關(guān),而要能根據(jù)問題難度,自動決定該投入多少算力——簡單問題直接答,復(fù)雜問題多想想,難題就全力推演。
但現(xiàn)實給了他們一記重?fù)簟:喜⒑蟮哪P停伎甲兊脝隆ⅹq豫,指令模式也不再干脆、穩(wěn)定、低成本。問題不在模型架構(gòu),而在數(shù)據(jù)本身:兩種模式的數(shù)據(jù)分布、行為目標(biāo)完全不同,強(qiáng)行融合只會“兩頭受損”,而非取長補短。
這次失敗,讓林俊旸徹底清醒:單純延長推理鏈、堆算力,不是AI的終極答案。當(dāng)行業(yè)都在琢磨“怎么讓模型多想一會兒”時,他開始追問——AI的思考,到底該服務(wù)于什么?
二、推理思維vs智能體思維:兩種完全不同的“大腦”
要理解這場變革,得先分清兩種思維的本質(zhì)區(qū)別。
1.推理思維:悶頭推演的“解題機(jī)器”
以O(shè)penAIo1、DeepSeek-R1為代表,核心是靜態(tài)、內(nèi)部、獨白式的長推理鏈。
目標(biāo):追求“思考的質(zhì)量和正確性”,比如解數(shù)學(xué)題、寫代碼、通過基準(zhǔn)測試。
方式:模型在封閉環(huán)境里“悶頭想”,靠延長推理鏈、增加計算量,輸出越來越長的“思考過程”文本。
局限:只能“回答問題”,不能“解決問題”——它知道答案,但不會動手做;能生成方案,但無法落地執(zhí)行。
2.智能體思維:邊做邊想的“行動者”
這是林俊旸提出的新方向,核心是為行動而思考,在環(huán)境中思考,通過反饋閉環(huán)修正。
目標(biāo):不是“想得夠久”,而是“用思考支撐有效行動”,在與世界的互動中持續(xù)推進(jìn)任務(wù)。
方式:模型不再孤立推演,而是邊想邊做——調(diào)用工具、獲取反饋、失敗后改計劃、多輪交互中保持思路一致。
能力:能處理純推理模型解決不了的問題——何時停止思考動手、選什么工具、整合嘈雜的環(huán)境信息、修訂計劃、維持多輪交互一致性。
Anthropic的Claude系列,給了林俊旸關(guān)鍵啟發(fā)。Claude3.7是“可控預(yù)算的混合推理模型”,Claude4更讓推理和工具調(diào)用交錯進(jìn)行——思考不再是為了展示,而是服務(wù)于編碼、工具調(diào)用、長時任務(wù)和智能體工作流。
三、HarnessEngineering:智能體的“腳手架”與“操作系統(tǒng)”
智能體思維要落地,離不開一個核心概念——HarnessEngineering(駕馭工程)。林俊旸把它比作AI的“腳手架”,也是模型的“操作系統(tǒng)”。
1.什么是Harness?
如果把大模型比作“引擎”,Harness就是圍繞引擎造的“車”——沒有它,再強(qiáng)的引擎也跑不起來。
本質(zhì):為AI搭建環(huán)境、工具、約束、反饋循環(huán)、多智能體協(xié)同機(jī)制的完整系統(tǒng)。
作用:把“裸模型”變成能在現(xiàn)實任務(wù)中持續(xù)行動、修正、完成工作的Agent(智能體)。
公式:Agent=Model+Harness——模型是大腦,Harness是手腳、眼睛、控制系統(tǒng)。
2.Harness的核心價值:解決“執(zhí)行難題”
很多時候,模型執(zhí)行任務(wù)失敗,不是不夠聰明,而是外部系統(tǒng)太亂——它會迷失方向、重復(fù)失敗、忘記目標(biāo)。Harness就是來解決這些問題的:
工具管理:協(xié)調(diào)模型調(diào)用API、數(shù)據(jù)庫、代碼執(zhí)行器等,讓“思考”落地為“行動”。
反饋閉環(huán):把行動結(jié)果返回給模型,讓它知道“做對了沒”,并修正策略。
約束與安全:設(shè)定規(guī)則、沙箱環(huán)境,防止模型“作弊”(比如直接搜答案、濫用工具)。
多智能體協(xié)同:協(xié)調(diào)規(guī)劃器、領(lǐng)域?qū)<摇⒆又悄荏w分工,讓復(fù)雜任務(wù)高效推進(jìn)。
四、從訓(xùn)練模型到訓(xùn)練系統(tǒng):AI競爭的新戰(zhàn)場
林俊旸的核心判斷,是AI行業(yè)正在從“訓(xùn)練模型”的時代,走向“訓(xùn)練智能體”,再到“訓(xùn)練系統(tǒng)”的時代。這意味著,競爭優(yōu)勢的來源徹底變了。
1.推理時代的優(yōu)勢:算法、算力、數(shù)據(jù)
過去,誰的強(qiáng)化學(xué)習(xí)算法更強(qiáng)、反饋信號更穩(wěn)、訓(xùn)練流水線更可擴(kuò)展,誰就領(lǐng)先。大家比拼的是模型本身——參數(shù)規(guī)模、推理能力、數(shù)據(jù)質(zhì)量。
2.智能體時代的優(yōu)勢:環(huán)境、Harness、閉環(huán)能力
未來,核心競爭力轉(zhuǎn)向系統(tǒng)工程能力:
環(huán)境設(shè)計:環(huán)境的穩(wěn)定性、真實性、覆蓋面、反饋豐富度,成了“一等研究對象”——就像SFT時代癡迷數(shù)據(jù)多樣性,現(xiàn)在要癡迷環(huán)境質(zhì)量。
訓(xùn)推協(xié)同:訓(xùn)練和推理緊密結(jié)合,讓模型在接近生產(chǎn)的環(huán)境中學(xué)習(xí),解決“推理側(cè)等待反饋、訓(xùn)練側(cè)斷糧”的低效問題。
反作弊與魯棒性:防范“獎勵作弊”(比如模型搜答案、走捷徑),提升評估器、環(huán)境的抗利用能力。
多智能體接口:設(shè)計高效的協(xié)同機(jī)制,讓不同智能體各司其職,控制上下文、避免污染。
五、未來已來:AI從“回答者”變成“辦事者”
智能體思維的終極意義,是讓AI從“被動回答問題的百科全書”,變成“主動解決問題的數(shù)字行動者”。
舉個例子:你要安排一場商務(wù)晚宴。
傳統(tǒng)大模型:給你生成菜單、推薦餐廳、寫邀請函,但聯(lián)系餐廳、預(yù)訂、發(fā)邀請、確認(rèn),全要你自己做。
AI智能體:你只說“下周三8人晚宴,人均500元,CEO海鮮過敏”,它自動查日歷、篩餐廳、預(yù)訂、發(fā)邀請、提醒你——你只需要最終確認(rèn)。
這就是智能體思維的價值:不是展示最長的思考鏈,而是在現(xiàn)實約束下,最穩(wěn)健、高效地解決問題。哪怕是最難的數(shù)學(xué)題、編碼任務(wù),先進(jìn)的系統(tǒng)也會去搜索、模擬、執(zhí)行、驗證,而不是悶頭寫長文本。
六、AI的下一場革命,是“落地”的革命
林俊旸的這篇文章,給狂熱的AI行業(yè)潑了一盆冷水,也指明了方向——大模型的未來,不在“推理鏈更長”,而在“行動能力更強(qiáng)”。
從推理思維到智能體思維,從訓(xùn)練模型到訓(xùn)練系統(tǒng),從比拼算法到比拼Harness工程能力,AI正在經(jīng)歷一場深刻的范式轉(zhuǎn)移。這場變革,不是技術(shù)細(xì)節(jié)的優(yōu)化,而是從“能思考”到“能做事”的本質(zhì)跨越。
未來,真正的AI強(qiáng)者,不再只是“會解題的學(xué)霸”,而是“能辦事的實干家”。而我們,也將迎來一個AI真正融入日常、解決實際問題的新時代——這,才是人工智能的終極價值。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.