網易首頁 > 網易號 > 正文 申請入駐

谷歌最新研究:重復提示詞可將AI準確率從21.33%提升至97.33%

0
分享至


最近小編發現了一個效果出奇好的提示詞技巧,實測結果堪稱驚人。

谷歌一篇新論文《重復提示詞提升非推理型大語言模型性能》指出,在部分任務中,簡單重復提示詞就能將非推理型大語言模型的準確率從21.33%提升至97.33%。


乍聽之下,這說法簡直玄乎,讓人難以相信。但背后的原理其實無比簡單。

谷歌在70項不同的基準測試任務中開展了實驗,這種復制粘貼式的提示詞重復法:

? 在47項任務中表現優于基準模型

? 全程無一失手

? 帶來了肉眼可見的大幅性能提升,部分任務的準確率從約21%飆升至約97%



這個測試,覆蓋了 7 個主流模型:Gemini 2.0 Flash / Flash Lite、GPT-4o / GPT-4o-mini、Claude 3 Haiku / Claude 3.7 Sonnet、DeepSeek V3 等。

測試基準包括 ARC (Challenge)、OpenBookQA、GSM8K、MMLU-Pro、MATH,及自定義任務NameIndex、MiddleMatch。


對于選擇題任務,測試兩種順序,問題在前(Question-First)與選項在前(Options-First)。

那么,重復問題為何能起到這樣的效果?

論文給出了一個極具工程視角的解釋:大語言模型均以因果語言模型為基礎進行訓練,它們逐詞生成文本,嚴格遵循從左到右的順序,每個詞元只能“看到”其之前的內容。

當你重復問題時(比如將問題Q改寫為Q1+Q2),第二個副本中的每個詞元都能完整關聯第一個副本的全部信息。

實際上,這相當于在不改動模型、不增加推理步驟的前提下,讓模型獲得了回顧并重新梳理信息的機會。

類似的小技巧還有其他,比如清華大學此前發現的“先驗證”策略。

在其論文《Asking LLMs to Verify First is Almost Free Lunch》中,清華大學團隊提出了一個反直覺的思路:與其讓AI直接回答,不如先讓它"找茬"。

這個名為先驗證(Verification-First, VF)的策略簡單到令人難以置信:

傳統方式(Chain-of-Thought):


Q: 球棒和球問題...

A: 讓我一步步思考...

VF方式:


Q: 球棒和球問題...(提示:答案可能是"0.10元",先驗證它對不對,再給出正確答案)

A: 先驗證"0.10元"是否正確...

關鍵點:即使提供的答案是隨機的、錯誤的,甚至"1"這樣毫無意義的數字,VF依然有效!

結果是,這個"笨辦法"能讓AI推理準確率提升10-15%,而且幾乎不增加計算成本。

可見,讓人工智能變得“更聰明”,未必需要增加復雜度,只需優化提示詞的結構就夠了。

谷歌論文地址:https://arxiv.org/pdf/2512.14982


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
延壽11%、多器官回春!中科院:這味常見中藥改善全身機能!

延壽11%、多器官回春!中科院:這味常見中藥改善全身機能!

時光派長壽觀察
2026-05-08 17:08:02
印度9歲女童篡改成績單,父親竟用電鋸割斷她的喉嚨

印度9歲女童篡改成績單,父親竟用電鋸割斷她的喉嚨

揚子晚報
2026-05-08 22:01:40
郭大杰已任廣東省文化和旅游廳黨組書記

郭大杰已任廣東省文化和旅游廳黨組書記

中國能源網
2026-05-09 14:33:02
無力回天!今晚廣東主場對陣北京,賽前噩耗接連砸落,廣東危險了

無力回天!今晚廣東主場對陣北京,賽前噩耗接連砸落,廣東危險了

老皢尾聲體育解說
2026-05-09 12:34:00
強肝第一名!不是枸杞。也不是山藥,而是家家戶戶都有

強肝第一名!不是枸杞。也不是山藥,而是家家戶戶都有

白宸侃片
2026-05-09 15:36:38
張云明任西北工業大學黨委書記

張云明任西北工業大學黨委書記

界面新聞
2026-05-09 17:17:29
炸鍋!李湘暴瘦50斤判若兩人,真實瘦身原因太驚人

炸鍋!李湘暴瘦50斤判若兩人,真實瘦身原因太驚人

鄉野小珥
2026-05-09 01:41:16
烏軍精準點穴令普京暴怒,澤連斯基批準莫斯科免死區域

烏軍精準點穴令普京暴怒,澤連斯基批準莫斯科免死區域

西樓飲月
2026-05-09 16:34:50
蔣萬安被問懵:不認中國人身份,憑何遷兩蔣靈柩回大陸?

蔣萬安被問懵:不認中國人身份,憑何遷兩蔣靈柩回大陸?

娛樂的宅急便
2026-05-08 13:39:15
人均將分320萬元!SK海力士“帶飛”周邊房價,員工地位超越醫生律師,三星200人跳槽過來

人均將分320萬元!SK海力士“帶飛”周邊房價,員工地位超越醫生律師,三星200人跳槽過來

每日經濟新聞
2026-05-09 15:14:43
安徽巨星夜崩盤,窮到欠薪卻敢辦大型演唱會,粉絲淪為韭菜太扎心

安徽巨星夜崩盤,窮到欠薪卻敢辦大型演唱會,粉絲淪為韭菜太扎心

法老不說教
2026-05-09 15:11:16
堅決反對穆里尼奧回歸!皇馬傳奇態度鮮明:皇馬應該請回阿隆索

堅決反對穆里尼奧回歸!皇馬傳奇態度鮮明:皇馬應該請回阿隆索

夜白侃球
2026-05-09 10:16:15
公交集團正式員工已經躺平不了了,想要混到退休不太可能

公交集團正式員工已經躺平不了了,想要混到退休不太可能

娛樂圈見解說
2026-05-09 00:23:44
人民日報證實莫言的警告:人真的會被氣死!70%的重病跟情緒有關,這3個致命傷害往往來自3種身邊人!

人民日報證實莫言的警告:人真的會被氣死!70%的重病跟情緒有關,這3個致命傷害往往來自3種身邊人!

職場火鍋
2026-05-06 21:52:40
文章虧大了!老鄉張藝謀攜7位陜西演員,上演40集央視大劇,缺他

文章虧大了!老鄉張藝謀攜7位陜西演員,上演40集央視大劇,缺他

冷紫葉
2026-05-08 23:20:13
震驚足壇!馬拉多納死亡真相再曝光,臨終前 12 小時無人照料,7名醫護面臨重刑

震驚足壇!馬拉多納死亡真相再曝光,臨終前 12 小時無人照料,7名醫護面臨重刑

情感大頭說說
2026-05-09 14:09:09
敢用人才!張雪高薪請來64歲日本專家:地位僅遜自己 3奪世界冠軍

敢用人才!張雪高薪請來64歲日本專家:地位僅遜自己 3奪世界冠軍

念洲
2026-05-08 18:02:59
微軟把Office變成買斷制,訂閱黨該算賬了

微軟把Office變成買斷制,訂閱黨該算賬了

碼上閑敘
2026-05-08 16:25:04
沒有坦克、沒有青少年預備役:俄烏對峙下的俄羅斯勝利日閱兵

沒有坦克、沒有青少年預備役:俄烏對峙下的俄羅斯勝利日閱兵

紅星新聞
2026-05-09 11:39:08
尷尬!俞敏洪與陳行甲的公開互動爭議升級,堪稱董宇輝事件的復刻

尷尬!俞敏洪與陳行甲的公開互動爭議升級,堪稱董宇輝事件的復刻

火山詩話
2026-05-09 06:34:45
2026-05-09 18:16:49
AI先鋒官 incentive-icons
AI先鋒官
AIGC大模型及應用精選與評測
503文章數 74關注度
往期回顧 全部

科技要聞

美國政府強力下場 蘋果英特爾達成代工協議

頭條要聞

韓巨頭上演史無前例造富狂歡 員工人均將分320萬獎金

頭條要聞

韓巨頭上演史無前例造富狂歡 員工人均將分320萬獎金

體育要聞

成立128年后,這支升班馬首奪頂級聯賽冠軍

娛樂要聞

50歲趙薇臉頰凹陷滄桑得認不出!

財經要聞

存儲芯片上演造富潮

汽車要聞

軸距加長/智駕拉滿 阿維塔07L定位大五座SUV

態度原創

時尚
教育
親子
旅游
軍事航空

你敢變重6公斤嗎?

教育要聞

時間定了!雅思紙筆考退出,全面機考備考建議來了!

親子要聞

是哪個瞬間,讓你一秒就理解了媽媽?

旅游要聞

首屆中國新文創市集暨潮玩游園會下周在京舉辦,萬余種文創將亮相

軍事要聞

美伊突然再次交火 伊朗外長:戰爭準備程度是1000%

無障礙瀏覽 進入關懷版