網易首頁 > 網易號 > 正文 申請入駐

無需訓練、即插即用,這個解碼方法讓模型學會謹慎思考

0
分享至

你有沒有發現這樣一種現象:面對同一個問題,大模型可能在每次回答時都給出不同答案。一個不容忽視的問題是,這種不確定性,是否意味著推理仍不穩定?

隨著技術的發展,大模型在自然語言處理和多模態任務中已經表現出越來越強的性能。傳統解碼策略主要包括隨機采樣(random sample)和貪婪解碼(greedy decoding)。例如,ChatGPT、Claude、Gemini 等大模型默認的是隨機采樣(random sample),即便是回答相同的問題,它們可能每次都會給出不同的答案。

而貪婪解碼(greedy decoding)在一般的基準測試(benchmark)上表現會有所提升,特別是在推理性任務上。但是,模型在不確定情況下的表現仍不理想。

為解決上述問題,美國東北大學與 Adobe、美國凱斯西儲大學聯合團隊提出了一種無需訓練的新型解碼策略,名為“謹慎下一步預測(CNTP,Cautious Next Token Prediction)”。

該策略旨在通過在模型不確定性高的步驟采樣多個候選路徑,并選擇困惑度最低的路徑。相較于隨機采樣和貪婪解碼等傳統策略,CNTP 顯著提升了大模型在多種任務上的推理準確度,可應用場景包括語音助手、視覺助手、聊天機器人等。


圖丨相關論文(來源:arXiv)

“我們的研究證明了 Transformer 模型下一個詞元預測(next token prediction)的范式,有可能實現真正的智能。”該論文第一作者王亦周對 DeepTech 表示。他目前正在東北大學攻讀博士學位,主要研究方向包括大模型、多模態模型和計算機視覺,即將加入 Adobe 擔任研究科學家/工程師。


圖丨王亦周(來源:王亦周)

Safe Superintelligence 公司創始人、前 OpenAI 首席科學家伊爾亞·蘇茨克維(Ilya Sutskever)曾公開表示,如果模型足夠強大,對下一個 token 的預測能力可能反映對世界的某種理解,這可能是實現更深層智能的關鍵路徑。

也就是說,next token prediction 是智能的核心。要實現這一點,需要在模型內部進行強推理,再通過一系列計算預測下一個 token。

受此啟發,研究團隊從人類認知行為中尋找靈感:人在思考時,往往越謹慎回答,結果的準確率越高,那么大模型會不會也和人腦有類似的機制?

王亦周解釋道:“這種過程類似于我們在參加考試時的解題過程,我們可能會先想下有哪些解法,然后從中挑選一種認為最有把握的方法,確認無誤后再進行下一步,直到得到完整的證明。”


圖丨 CNTP 方法概述(來源:arXiv)

這里的謹慎指的是,當面對不確定性的情況,需要多嘗試幾條不同的路徑,然后選擇一條最穩妥、最可信的路徑。

研究團隊用熵作為模型不確定性的衡量標準:熵越高越不可信。在自然語言處理(NLP)中,困惑度(perplexity)越低代表對答案越可信。因此在 CNTP 策略下,一旦熵值較高,模型會采樣多個候選路徑,并選擇其中困惑度最低的一條,再一步步迭代。

研究人員通過消融研究證明,由于思維鏈推理的回答往往較長,每條路徑長度也不同,如果算完整評估的困惑度無法很好地衡量答案的可靠性。基于此,他們采取了每到一句話的標點符號截止的方式來計算困惑度。相當于每句話、每個小的推理單元,即每個局部自洽能夠實現較理想的效果。

為控制采樣次數,研究團隊通過設置最小熵 Hmin 和最大熵 Hmax 兩個閾值和最大試驗次數 Nmax。該方法在提高解碼準確性的同時,還有效地限制了計算成本,避免了在每個步驟大量采樣而帶來的高計算開銷。


(來源:arXiv)

在實驗驗證方面,該團隊在數學推理(GSM8K、MATH)、常識推理(StrategyQA)和開放問答(TruthfulQA)等任務中證明,與包括貪婪解碼、隨機解碼和束搜索在內的傳統方法相比,CNTP 策略的結果更具優勢。

例如,在 TruthfulQA 任務中,Llama-2-7B 在使用 CNTP 方法后,真實性準確率提升到了 84.8%,相較于隨機解碼提升 6.8%。

值得關注的是,CNTP 策略無需訓練,僅解碼即可直接實現提升性能。王亦周解釋道:這種方法在某種程度上像“免費午餐”,盡管可能會帶來更多的 token 消耗,但在實際應用中有很多優化的方法可解決該問題。


(來源:arXiv)

此外,該方法搭配自一致性(self-consistency)后,可進一步提升性能(注:自一致性是取多個樣本,然后選一個出現頻率最高的答案),且計算成本遠低于后者。原因在于,利用多樣性和隨機性集思廣益后,選取多數投票。

研究團隊證明,每個樣本也是越謹慎越好。“我們的方法會在一定程度上限制它的多樣性,但通過調高溫度可以解決這一點,所以它能進一步提升。”王亦周說。

此外,CNTP 策略具有較好的普適性,可用于廣泛的對話任務。除了有固定答案的數學題或代碼題,它也可以用于開放式問題,研究團隊未來將嘗試將該策略用于圖像或視頻生成。

該研究為大模型的推理優化提供了一種新思路,有望成為下一代解碼策略的重要候選方案。

參考資料:

1.相關論文:https://arxiv.org/abs/2507.03038v2

2.code link:https://github.com/wyzjack/CNTP

排版:劉雅坤

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
皇室獨苗悠仁19歲選妃,4大條件層層篩選,第4條直接勸退所有人

皇室獨苗悠仁19歲選妃,4大條件層層篩選,第4條直接勸退所有人

z千年歷史老號
2026-04-24 11:37:07
英超積分榜,利物浦3:1,升至第四,熱刺1:0,16輪首勝仍在降級區

英超積分榜,利物浦3:1,升至第四,熱刺1:0,16輪首勝仍在降級區

小彭美識
2026-04-26 00:18:42
2026年稅務稽查變天,這8類企業將迎來嚴查!

2026年稅務稽查變天,這8類企業將迎來嚴查!

細說職場
2026-04-25 20:36:35
烏克蘭清除全部庫皮揚斯克俄軍部隊!摧毀紅軍村通訊系統

烏克蘭清除全部庫皮揚斯克俄軍部隊!摧毀紅軍村通訊系統

項鵬飛
2026-04-24 12:48:43
大理民宿市場涼透了!7000家民宿廝殺,有人虧百萬仍沒賣出去…

大理民宿市場涼透了!7000家民宿廝殺,有人虧百萬仍沒賣出去…

火山詩話
2026-04-23 09:14:07
雷陣雨+局地6級大風!北京4區雷電藍色預警中——

雷陣雨+局地6級大風!北京4區雷電藍色預警中——

BRTV新聞
2026-04-25 19:58:56
特朗普抨擊哈里王子訪烏,俄市民哀嘆烏克蘭襲擊后當地像廣島和切爾諾貝利 | 狼叔看世界

特朗普抨擊哈里王子訪烏,俄市民哀嘆烏克蘭襲擊后當地像廣島和切爾諾貝利 | 狼叔看世界

狼叔看世界
2026-04-24 15:29:22
湖人隊沒東契奇和里夫斯,3比0領先火箭隊,球迷:火箭隊,解散吧

湖人隊沒東契奇和里夫斯,3比0領先火箭隊,球迷:火箭隊,解散吧

好火子
2026-04-26 00:39:45
F-47原型機可能已秘密試飛多年,累計數百小時,項目推進符合計劃

F-47原型機可能已秘密試飛多年,累計數百小時,項目推進符合計劃

止戈軍是我
2026-04-25 12:29:15
女子乘高鐵被26寸行李箱砸到頭:索賠600元無果,列車長個人“補償”了400元;箱子主人:已付CT檢查費,索賠額已超過我應承擔的責任范圍

女子乘高鐵被26寸行李箱砸到頭:索賠600元無果,列車長個人“補償”了400元;箱子主人:已付CT檢查費,索賠額已超過我應承擔的責任范圍

臺州交通廣播
2026-04-25 00:39:45
菲律賓一夜變天?副總統莎拉緊急出國!杜特爾特家族大勢已去?

菲律賓一夜變天?副總統莎拉緊急出國!杜特爾特家族大勢已去?

哎呀哎呀看電影
2026-04-24 21:37:50
這才是剛走完長征的毛主席相貌,美國人拍攝,滿臉憔悴,瘦到脫相

這才是剛走完長征的毛主席相貌,美國人拍攝,滿臉憔悴,瘦到脫相

史之銘
2026-04-25 19:39:39
新聞的使命是揭示真相,宣傳的目的是灌輸立場

新聞的使命是揭示真相,宣傳的目的是灌輸立場

壹家言
2026-04-25 20:59:02
鮑爾默6000萬美元投資血本無歸,痛斥欺詐創始人“我被騙了”

鮑爾默6000萬美元投資血本無歸,痛斥欺詐創始人“我被騙了”

IT之家
2026-04-25 12:43:15
小米SU7自動泊車時撞上懸空墻體;車主:以后不再用了;廠家:懸空障礙物會影響到泊車輔助功能

小米SU7自動泊車時撞上懸空墻體;車主:以后不再用了;廠家:懸空障礙物會影響到泊車輔助功能

大風新聞
2026-04-23 15:47:14
演員毛曉彤凌晨從醫美診所離開引網友熱議,其曬醫院檢測報告回應:作為一個從小愛吃面食的天津人,查出面粉不耐受可怎么辦

演員毛曉彤凌晨從醫美診所離開引網友熱議,其曬醫院檢測報告回應:作為一個從小愛吃面食的天津人,查出面粉不耐受可怎么辦

魯中晨報
2026-04-25 08:56:26
女子酒店抓獲丈夫出軌,無法容忍不戴避孕套,丈夫:她是我朋友

女子酒店抓獲丈夫出軌,無法容忍不戴避孕套,丈夫:她是我朋友

李晚書
2026-04-24 10:39:33
怒了!國安球迷:蒙哥馬利下課,知道大廠為何35歲以上的不要了吧

怒了!國安球迷:蒙哥馬利下課,知道大廠為何35歲以上的不要了吧

足球大腕
2026-04-25 23:21:55
隨著維拉爆大冷門0-1,英超最新積分榜出爐:曼聯漁翁得利

隨著維拉爆大冷門0-1,英超最新積分榜出爐:曼聯漁翁得利

側身凌空斬
2026-04-25 21:24:16
李啟言父親病逝,日夜照顧癱瘓兒子病倒,曾拒絕李澤楷千萬救濟金

李啟言父親病逝,日夜照顧癱瘓兒子病倒,曾拒絕李澤楷千萬救濟金

開開森森
2026-04-25 18:07:45
2026-04-26 01:24:50
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
16624文章數 514899關注度
往期回顧 全部

科技要聞

DeepSeek V4發布!黃仁勛預言的"災難"降臨

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

頭條要聞

媒體:美軍在中東罕見高密度集結 伊朗開始調整戰術

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《我們的爸爸2》第一季完美爸爸翻車了

財經要聞

90%訂單消失,中東旺季沒了

汽車要聞

2026款樂道L90亮相北京車展 樂道L80正式官宣

態度原創

家居
本地
旅游
親子
公開課

家居要聞

自然肌理 溫潤美學

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

旅游要聞

美猴王VS水蜜桃,連云港、無錫文旅“雙向奔赴”

親子要聞

發生率僅十萬分之一!這種稀有血型跨省緊急調配,只為守護母嬰安全

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版