網易首頁 > 網易號 > 正文 申請入駐

阿里巴巴團隊讓AI學會"知道自己知道什么"——當工具不再被濫用

0
分享至


這項由阿里巴巴集團Accio團隊與華中科技大學聯合開展的研究,以預印本形式發布于2026年4月,論文編號為arXiv:2604.08545。有興趣深入了解的讀者可以通過該編號在arXiv平臺查閱完整論文。

你有沒有遇到過這種人:明明自己就能回答的問題,非要掏出手機搜索一番,反而把事情搞得更復雜?更糟糕的是,搜索出來的結果根本用不上,甚至把原本正確的思路給帶跑偏了。現代AI助手正在面臨完全相同的困境——而這支來自阿里巴巴的研究團隊,花了大量精力來解決這個問題。

說到底,這篇論文講的是一個關于"自知之明"的故事。研究團隊給他們訓練出來的AI起名叫Metis——這是希臘神話中智慧女神的名字,象征著不僅聰明,還懂得何時該用智慧、何時該保持沉默。這個名字選得頗為貼切,因為整個研究的核心,就是讓AI學會一種人類稱為"元認知"的能力:知道自己知道什么,也知道自己不知道什么。

一、被濫用的"工具箱":AI為什么總在亂用外部工具

要理解這個問題,先從AI的工具這個概念說起。現代強大的視覺AI模型,不只是被動地"看"圖片然后回答問題,它們還配備了一整套外部工具,就像一名工作人員除了自己的知識儲備之外,還有一部電話可以打、一臺電腦可以查資料、一套專業儀器可以精密測量。這些工具包括:在網上搜索文字信息、用圖片去搜索相關視覺內容、用代碼來處理和分析圖像數據等等。

當一個問題超出了AI自身能力范圍時,調用這些工具確實非常有用。比如,看一張照片里某個著名建筑的內部測量尺寸,AI自然無法憑空得知,這時候去搜索資料就很合理。再比如,圖片里的某個圖表分辨率太低,AI看不清細節,這時候用代碼把圖表裁剪放大就是明智之舉。

然而,研究團隊發現了一個讓人哭笑不得的現象:當前最先進的開源AI模型,會對幾乎所有問題都觸發工具調用,哪怕這些問題完全不需要外部幫助。就像那個非要掏手機查"一加一等于幾"的人一樣。研究中的數據非常直觀:對比模型在一個測試集上的工具調用率高達98%,而Metis只有2%。

這種"盲目工具調用"帶來的問題不只是效率上的浪費。每調用一次外部工具,系統都需要等待——這在實際應用中意味著真實的延遲。更嚴重的是,搜索引擎返回的內容可能與當前問題無關,甚至包含錯誤信息,這些噪音會干擾AI后續的推理過程,就像你本來思路很清晰,突然有人插進來說了一堆不相關的話,反而把你搞糊涂了。研究數據也印證了這一點:工具調用率高的模型,其準確率反而不如Metis。

二、舊方法的死結:用一個獎勵同時馴服兩匹馬

發現了問題,研究者們自然想到了解決辦法。既然AI總是亂用工具,那就在訓練時懲罰它多用工具不就好了?這個思路看似合理,但研究團隊深入分析后發現,這條路其實走不通——或者說,走起來會遇到一個幾乎無法調和的矛盾。

理解這個矛盾,需要先知道AI是怎么被訓練的。研究團隊使用的是一種叫做強化學習的訓練方式,通俗地說,就是AI做對了給獎勵,做錯了給懲罰,通過無數次的嘗試和反饋,AI逐漸學會做正確的事情。為了同時鼓勵準確性和節約工具使用,現有的大多數做法是把這兩個目標合并成一個總分:總獎勵 = 答題準確得分 + α × 工具節約得分,其中α是一個用來調節兩者權重的系數。

問題就出在這個"合并"上。研究團隊通過數學分析揭示了這種合并會導致三種具體的訓練災難。

第一種災難是"梯度糾纏"。在AI訓練過程中,更新模型參數的"指令"(也就是梯度)會因為這種混合獎勵而變得相互干擾。提升準確性的訓練信號和減少工具使用的訓練信號會互相影響,導致兩個目標都學不好,就像兩個人同時往相反方向拉一根繩子,結果哪邊都沒動。

第二種災難是"語義混淆"。一個答對了但用了很多工具的軌跡,和一個答錯了但完全沒用工具的軌跡,把它們的總分一算,可能得到非常接近的數值。這對AI來說是一種極具誤導性的信號——它完全無法分辨這兩種行為的本質區別,因為它們的"分數"幾乎一樣。

第三種災難是"超參數脆弱性"。α這個系數該設多大?如果設得大,AI會為了省工具而寧可不回答或亂答題,嚴重損害準確性;如果設得小,研究團隊通過數學推導證明,這個工具效率信號在訓練過程中會被準確性信號的波動完全淹沒,變成一個無效的擺設。這就像在嘈雜的集市上用耳語傳遞命令——聲音太小,根本沒人聽見。

三、新框架的誕生:把兩匹馬分開馴

既然把兩個目標合并會造成混亂,研究團隊的解決思路非常清晰:把它們徹底分開。這就是他們提出的核心算法——層次解耦策略優化,英文縮寫為HDPO。

"解耦"這個詞聽起來很技術,但本質上就是把一件事拆成兩件獨立的事來做。就像訓練一個廚師,你可以先單獨考核他的菜做得好不好(準確性),再單獨考核他有沒有浪費食材(效率),而不是把兩個分數混在一起變成一個讓人摸不著頭腦的綜合分。

HDPO內部有兩條相互獨立的"優化通道"。第一條叫做準確性通道,它的目標很簡單:不管AI用沒用工具、用了多少工具,只要最終答案是對的,就給高分;答錯了就給低分。這個通道不關心效率問題,它的唯一使命就是讓AI學會答對題。

第二條叫做效率通道,這條通道的設計就精妙得多了。它的獎勵公式是這樣的:如果AI答對了,獎勵值等于1除以(調用工具次數加1)。這意味著:答對了且一次工具都沒用,得滿分1分;答對了且用了一次工具,得0.5分;答對了且用了兩次工具,得約0.33分,以此類推,工具用得越多分越低。關鍵是最后這一條——如果答錯了,效率獎勵直接是零分,不管你用了多少工具或者一次都沒用。

這個設計背后有一個非常重要的哲學:效率必須以正確性為前提。一個答題快但答錯的AI毫無價值。通過把答錯的情況排除在效率考核之外,研究團隊確保了AI永遠不會為了少用工具而放棄思考的嚴謹性。

更巧妙的是效率通道在計算相對分數(也就是"優勢值")時的處理方式。它只在"答對了的那些嘗試"之間進行橫向比較——哪幾次答對了但少用工具,哪幾次答對了但多用工具,通過比較找到工具使用方面的改進空間。如果某個問題的所有嘗試中只有零個或一個答對的,那就干脆不計算效率信號,因為此時樣本太少,比較沒有意義。

兩條通道各自獨立計算完訓練信號之后,才在最后一步按照一定權重(準確性權重為1.0,效率權重為0.15)合并成最終的訓練指令。這就像兩位獨立工作的考官分別打分,最后才把分數匯總,而不是一開始就讓他們湊在一起打一個混合分——兩種方式表面上看起來相似,實際效果卻天差地別。

四、意外驚喜:訓練過程中自動出現的"學習課程"

HDPO框架有一個研究團隊稱之為"隱式認知課程"的美妙性質,這是一個在設計階段并未刻意為之,但自然浮現的結構。

回憶效率通道的規則:只有當AI答對的嘗試數量達到至少兩個時,效率信號才會被激活。在訓練的最初階段,AI能力還很弱,絕大多數嘗試都會答錯,效率通道幾乎一直處于休眠狀態。這意味著在訓練早期,整個系統實際上只在優化準確性,強迫AI先把答題這件事搞明白。

隨著訓練的深入,AI的準確性逐漸提升,越來越多的嘗試開始答對,效率通道被激活的頻率也越來越高,AI開始受到"在答對的前提下盡量少用工具"的引導。于是訓練過程自動分成了兩個階段:先學會答對,再學會高效。

這種兩階段的發展軌跡,正是人類學習新技能的自然規律。一個剛開始學開車的人,應該先把方向盤和油門剎車搞清楚,再去考慮如何節省燃油;一個剛入職的新員工,應該先把工作任務完成好,再去優化流程、提高效率。HDPO把這種樸素的教育智慧編碼進了訓練算法本身。

五、訓練數據的"去污工程":光有好算法還不夠

好的算法需要好的數據來配合。研究團隊在準備訓練材料時,發現了現有數據集中存在的嚴重問題,并設計了一套針對性的清理流程。

在監督微調階段(可以理解為AI正式訓練之前的"預習"階段),研究團隊從多個公開的工具增強型多模態數據集中收集素材,然后通過三道關卡進行篩選。

第一道關卡是清除"虛假執行記錄"。很多現有數據集中存在這樣的糟糕示例:代碼寫錯了,語法都有問題,但AI給出的"工具返回結果"卻神奇地正確;或者代碼運行報錯了,AI直接無視錯誤信息,假裝執行成功并給出了正確答案。訓練時如果讓AI看到這些例子,它學到的不是真正的推理能力,而是"遇到錯誤就假裝沒事,直接猜一個正確答案"這種投機取巧的壞習慣。為此,團隊把所有代碼都放到一個隔離的沙盒環境中實際運行,凡是運行失敗或者結果與記錄不符的數據,一律丟棄。

第二道關卡是過濾"假工具必要性"案例。很多數據集是用能力較弱的舊模型標注的,那時候需要借助工具才能回答的問題,現在新模型憑自身能力就能輕松解決。用這些過時的數據訓練新模型,會讓新模型學到"這類問題需要用工具"這種錯誤的慣性。團隊的解決辦法是:用當前最強的基礎模型(Qwen3-VL-8B)在完全沒有工具輔助的情況下對每道題嘗試八次,如果八次都答對了,說明這道題根本不需要工具,就把它從數據集里剔除。

第三道關卡是"元認知質量審核"。團隊使用谷歌最強的Gemini 3.1 Pro模型作為自動評審,對每一條訓練示例從多個維度進行細粒度評分,包括視覺內容的相關性、推理邏輯的連貫性、使用工具的合理性等。評審會明確懲罰"無意義工具調用"——比如對一張已經清晰可讀的圖片進行旋轉操作,這種行為毫無意義卻浪費計算資源。低于質量門檻的數據統統淘汰。

在正式強化學習階段的數據準備上,研究團隊同樣有一套精心設計的篩選標準。除了剔除圖片質量差或者問題描述模糊的樣本之外,他們還特別注重"難度校準":那些太簡單(八次全對)或者太難(八次全錯)的問題都不要,只保留有一定成功率但又不是手到擒來的問題。原因很直接:太簡單的問題訓練不出什么,AI不會學到新東西;太難的問題也沒用,AI完全答不對,強化學習的獎勵信號就成了一張廢紙。最終篩選出來的高質量強化學習訓練集約有5000條題目,覆蓋感知類任務(占45%)、搜索類任務(占36%)以及數學和通用推理任務(占19%)。

六、實驗結果:數字背后的真實含義

研究團隊用非常全面的測試來檢驗Metis的實際表現,測試范圍跨越了兩大類能力:視覺感知與文檔理解,以及數學與邏輯推理。

在視覺感知類測試中,有幾個數字格外引人注目。V*Bench是一個專門測試高分辨率圖像理解能力的基準,Metis得分91.1%,而用相同基礎模型加上常規強化學習訓練出來的對比模型只有88.7%,差了2.4個百分點。HRBench-8K是一個難度更大的高分辨率測試,Metis達到82.0%,同樣超過了所有對比模型,包括參數量是Metis三倍多的Skywork-R1V4-30B模型(該模型在這個測試上得79.8%)。這意味著Metis用更少的參數量,反而表現得更好,從一個側面說明減少噪音干擾確實有助于提升推理質量。

圖表理解類測試(CharXiv)中,Metis在推理性問題上得到54.1%,而之前最強的同類模型DeepEyesV2只有48.9%,提升了超過5個百分點。圖表推理要求AI看懂復雜圖表中的數據關系并進行推斷,是一項對理解能力要求非常高的任務。

在數學推理類測試中,最讓研究團隊感到興奮的結果來自WeMath數據集,Metis以65.2%的成績大幅超越基礎模型的38.8%,提升了整整26.4個百分點。相比之下,同類最強的對比模型DeepEyesV2只有38.1%,幾乎沒有進步。這個結果揭示了一個反直覺的現象:當AI不再被無關的搜索結果干擾,能夠專心用代碼執行精確的數學計算時,數學解題能力反而大幅提升了。在五個數學和邏輯推理數據集上,Metis的平均分達到66.9%,遠超所有參與比較的模型。

消融實驗部分的結果進一步驗證了HDPO設計的合理性。當效率權重設為0時(即退化為普通強化學習),模型在V*Bench上只有88.7%;把效率權重調到0.10,提升到88.0%(反而下降了一點,說明信號太弱不夠用);設為0.15時達到最佳的91.1%;再調高到0.20,又下降到87.4%。這種"先升后降"的倒U形曲線,精確地指向了效率懲罰的最優點——不夠用的懲罰起不到作用,過度的懲罰讓AI變得過于保守。

七、智慧的邊界:兩個具體案例

研究團隊精心挑選了幾個具體例子來展示Metis的行為模式,這些例子比任何數字都更直觀地說明了問題。

第一個場景:給AI看一張圖,里面是兩名穿著USA球衣的籃球運動員,其中一人背號6,問題是"6號球衣的人是誰"。對于普通人來說,看到美國男籃、6號背號、運動員的外形,大概率會認出這是勒布朗·詹姆斯——這是一個憑借視覺感知加上常識就能回答的問題。Metis的做法正是如此:它直接根據圖片內容和已有知識作出判斷,給出答案,全程沒有調用任何工具。而對比模型(同樣的基礎模型,用普通強化學習訓練)的做法截然不同:它先坦承"沒有額外信息很難確認",然后觸發圖片搜索工具,檢索了10條搜索結果,然后才說"根據搜索結果,這應該是勒布朗·詹姆斯"。兩者都答對了,但過程完全不同——一個是真正的理解,一個是繞了一大圈的確認。

第二個場景:給AI看一個學術論文中的圖表,圖表里有兩個子圖,問題是"子圖(b)在200k時間步處,第二高的曲線叫什么名字"。這道題的難點在于,三條顏色接近的曲線在小圖中非常難以區分,直接看原圖可能出錯。Metis面對這種情況的處理方式非常克制而精準:它先在腦子里對圖表進行了分析,認為藍色曲線最高,橙色第二,綠色第三,然后認為有必要做一次視覺驗證,于是調用代碼將子圖(b)裁剪放大,對比確認后給出答案。整個過程只用了一次工具,目的明確、用完即止。

這兩個案例共同描繪了Metis行為邊界的清晰輪廓:當知識和視覺能力足夠時,不用工具;當視覺信息確實不夠精確時,精準地用一次代碼工具;當需要識別陌生事物時,用圖像搜索;當需要查閱具體數據時,用文字搜索。每一次工具調用都有明確的理由,每一次不調用也都是主動的判斷,而非遺漏。

說到底,這篇論文解決的不僅僅是一個技術問題,而是觸及了AI"自知之明"這個更深層的議題。當前的很多AI系統,更像是一個過度依賴查手機的人——面對任何問題都先去搜一搜,哪怕答案明明就在自己腦子里。這種習慣帶來的不只是速度上的低效,更會因為引入無關信息而污染原本清晰的思路。

歸根結底,Metis團隊的貢獻在于證明了一件重要的事:讓AI變聰明,不一定要給它配備更多工具或者更強的搜索能力,有時候更有價值的恰恰是教會它什么時候不要使用工具。這種克制,正是真正智慧的標志。

對于普通用戶來說,這項研究意味著未來的AI助手在處理日常問題時可能會更快、更干凈,不會動不動就給你塞一堆搜索結果——尤其是當你只是想要一個簡單直接的答案的時候。對于開發者和研究者來說,HDPO提供了一個方法論上的啟示:在強化學習訓練中,目標之間的干凈分離,往往比精心調節的混合獎勵更加有效。

值得進一步思考的是,這種元認知能力的邊界在哪里?Metis能判斷"這道視覺題我自己能解",但能否判斷"這道知識題我的記憶可能已經過時了,需要去查"?隨著AI能力邊界不斷擴展,這種自我評估的挑戰只會越來越復雜。如果你對這些問題感興趣,可以通過arXiv編號2604.08545查閱完整論文,其中附錄部分還包含了更多具體案例分析和完整的系統提示詞設計。

Q&A

Q1:Metis和普通AI助手在使用外部工具上有什么本質區別?

A:普通AI助手(以及使用常規強化學習訓練的模型)往往對幾乎所有問題都觸發工具調用,工具使用率可高達98%。Metis則通過HDPO訓練,學會了主動判斷:當視覺信息和已有知識足夠回答問題時,直接作答;只有當問題真正超出自身能力范圍時(比如需要精確測量、識別陌生事物或查詢具體數據),才會精準調用一次相應工具。這種選擇性讓Metis的工具使用率降低到約2%,同時準確率反而更高。

Q2:HDPO訓練方法和普通強化學習方法有什么不同?

A:普通強化學習把答題準確分和工具節約分加在一起變成一個總分,這會造成兩個訓練目標互相干擾,導致工具效率信號被準確性的波動淹沒。HDPO的核心改進是把兩個目標完全分開:準確性通道獨立優化答題質量,效率通道只在答對的情況下才激活,單獨優化工具使用效率,最后才在損失函數層面合并。這種分離消除了梯度干擾,還自動產生了"先學會答對再學高效"的訓練課程。

Q3:Metis是開源的嗎,普通人能用嗎?

A:是的,研究團隊已將Metis-8B-RL模型的權重開源發布在HuggingFace平臺(賬號Accio-Lab),代碼也在GitHub上公開(倉庫名Accio-Lab/Metis)。對于有技術能力的開發者來說,可以直接下載使用或在此基礎上進行二次開發。普通用戶目前可能需要通過相關應用產品來間接體驗這類能力,直接調用模型仍需要一定的技術門檻。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
富豪為何主動上交資產?看懂偉人的神級操作,西方徹底看傻眼了

富豪為何主動上交資產?看懂偉人的神級操作,西方徹底看傻眼了

鶴羽說個事
2026-04-22 22:55:55
孫楊綜藝表現惹眾怒,大V發文吐槽揭他往事,私生子傳聞被深扒

孫楊綜藝表現惹眾怒,大V發文吐槽揭他往事,私生子傳聞被深扒

古希臘掌管松餅的神
2026-04-25 11:24:56
浙江足協:我們不怕技不如人,但怕看到迷茫的眼神和松散的隊形

浙江足協:我們不怕技不如人,但怕看到迷茫的眼神和松散的隊形

懂球帝
2026-04-25 22:23:26
中興通訊發布一季報:營收349.9億元,算力占比升至27%

中興通訊發布一季報:營收349.9億元,算力占比升至27%

新浪財經
2026-04-25 18:53:27
拜仁又創德甲新紀錄!單季客場狂轟50球,杰克遜寫意凌空斬

拜仁又創德甲新紀錄!單季客場狂轟50球,杰克遜寫意凌空斬

奧拜爾
2026-04-25 23:03:22
局勢惡化!日本開出危險一槍,中國紅線遭踩踏,東部戰區行動了

局勢惡化!日本開出危險一槍,中國紅線遭踩踏,東部戰區行動了

云舟史策
2026-04-23 07:32:35
《八千里路云和月》大結局:張汝賢去世,云魁犧牲,萬福玉嬌重逢

《八千里路云和月》大結局:張汝賢去世,云魁犧牲,萬福玉嬌重逢

八斗小先生
2026-04-25 10:44:48
注意!中老年男性有性生活和沒性生活,差別居然這么大?

注意!中老年男性有性生活和沒性生活,差別居然這么大?

皓皓情感說
2026-04-22 08:20:32
當你見過的婚姻越多,就會發現:一個家庭,如果爸爸掙不了大錢,只要媽媽不和爸爸鬧,爸爸不偷不賭不懶,對家庭和孩子負責,日子就不會差

當你見過的婚姻越多,就會發現:一個家庭,如果爸爸掙不了大錢,只要媽媽不和爸爸鬧,爸爸不偷不賭不懶,對家庭和孩子負責,日子就不會差

大愛三湘
2026-04-24 20:49:17
“影后”附體!女子“分飾六角”同時交往多名農村大齡未婚男青年,無縫切換詐騙30余萬元;實際已婚生子,涉嫌詐騙罪被江西吉水警方刑拘

“影后”附體!女子“分飾六角”同時交往多名農村大齡未婚男青年,無縫切換詐騙30余萬元;實際已婚生子,涉嫌詐騙罪被江西吉水警方刑拘

大風新聞
2026-04-25 22:23:03
高德地圖“越禁越火”?臺灣民意“一邊倒”,民進黨當局起內訌

高德地圖“越禁越火”?臺灣民意“一邊倒”,民進黨當局起內訌

中國青年報
2026-04-25 16:23:15
中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

中國第四艘航母官宣:是核動力!舷號19,命名大概率是“江蘇號”

林子說事
2026-04-25 13:02:00
“月薪1.6萬招人放羊”老板再發聲:多人通過初選,但擔心條件艱苦留不住人;稱就算降薪也要交社保

“月薪1.6萬招人放羊”老板再發聲:多人通過初選,但擔心條件艱苦留不住人;稱就算降薪也要交社保

極目新聞
2026-04-25 16:12:24
Windows 11偷偷改了FAT32上限:32GB到2TB的20年僵局

Windows 11偷偷改了FAT32上限:32GB到2TB的20年僵局

字節漫游指南
2026-04-24 10:01:08
銅梁龍董事長:演唱會280那么多人搶,足球80還有人罵,所以要改變

銅梁龍董事長:演唱會280那么多人搶,足球80還有人罵,所以要改變

懂球帝
2026-04-25 00:06:57
國務院免去二人職務!此前任上被查

國務院免去二人職務!此前任上被查

上觀新聞
2026-04-24 15:51:06
深圳女子公交站臺勸滅煙時起沖突,當事人:涉事男子已道歉,事發地點是禁煙場所

深圳女子公交站臺勸滅煙時起沖突,當事人:涉事男子已道歉,事發地點是禁煙場所

封面新聞
2026-04-25 18:52:13
許家印認罪!2.4萬億窟窿,家族只拿走500億,其余真金白銀去哪了

許家印認罪!2.4萬億窟窿,家族只拿走500億,其余真金白銀去哪了

蜉蝣說
2026-04-23 09:41:11
聯合國變天?秘書長候選人出現,巴西力挺,中方:不準有官僚主義

聯合國變天?秘書長候選人出現,巴西力挺,中方:不準有官僚主義

娛樂圈的筆娛君
2026-04-25 17:16:50
無痕模式5大誤解:你以為隱身,其實全裸奔

無痕模式5大誤解:你以為隱身,其實全裸奔

碳基打工人
2026-04-24 10:05:10
2026-04-25 23:31:00
科技行者 incentive-icons
科技行者
科技正在如何變革商業世界
8130文章數 563關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

臺媒:毛里求斯表態戳破臺當局謊言

頭條要聞

臺媒:毛里求斯表態戳破臺當局謊言

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

旅游
藝術
本地
教育
公開課

旅游要聞

珠海夢幻水城今日開園,五一“濕身”派對提前鎖定

藝術要聞

服了!蘇州20棟“墓碑樓”,出自英國設計師之手

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

教育要聞

吳欣歆:整本書閱讀的五種基本策略

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版