網易首頁 > 網易號 > 正文 申請入駐

“專家人設”反而讓 AI 變笨?研究實錘:一句“你是資深工程師”,代碼準確率不升反降!

0
分享至

編譯 | 鄭麗媛

出品 | CSDN(ID:CSDNnews)

如果你也經常這樣寫 Prompt——

“你是一位資深全棧工程師,請幫我寫一套生產級系統代碼……”

那這篇研究,可能會讓你重新審視自己的使用習慣。

一直以來,“給 AI 加人設”幾乎成了默認操作。從寫代碼、寫文檔,到做架構設計,不少開發者都會在開頭先“鋪墊一句”,試圖把模型“催眠”成一個更專業的版本。但問題是:這種看似提升專業性的技巧,可能正在悄悄拉低結果質量。

近日,一項來自美國南加州大學(USC)的最新研究,對這一做法給出了一個有些反直覺的結論:讓 AI 扮演“專家”,并不會讓它更擅長解決專業問題,反而在編程和數學任務上會明顯變差。(論文地址:https://arxiv.org/abs/2603.18507)



一項研究:為什么“專家人設”會翻車?

所謂“人設提示”(Persona-based Prompting),本質上就是一種“角色扮演式”的 Prompt 技術。它的核心邏輯很簡單:通過一句身份設定,讓模型進入某種“工作狀態”。

這種方法在 2023 年開始被廣泛討論,并迅速在開發者社區流行開來。無論是教程、課程,還是各種 Prompt 模板,幾乎都會建議你這樣寫:

● “你是一位經驗豐富的機器學習工程師……”

● “你是一名精通系統設計的架構師……”

● “請以安全專家的視角分析以下問題……”

理論上來說,這種方法似乎很合理。畢竟模型是“語言驅動”的,那多給一點上下文,不就能讓它“更像專家”嗎?但來自南加州大學(USC)的研究人員在一篇論文中指出:

“人設提示是否有效,很大程度上要看任務類型。”

也就是說,并不是“加了人設就一定能變強”,而是“用對了才行”。具體來說,該研究團隊將任務大致分成兩類:

(1)一類是依賴“對齊能力”的任務,比如寫作、角色扮演、遵守規則、安全策略等。在這些場景中,模型需要的是“行為符合預期”,而不是絕對正確的答案。

(2)一類則是依賴“知識和推理能力”的任務,比如數學計算、代碼生成、事實問答。這些任務則更依賴模型在預訓練階段學到的知識儲備。

基于這兩類任務,研究團隊得到的實驗結果為:在“人設提示”的加持下,第一類任務表現有所提升;但在第二類任務中,模型表現卻出現了系統性下降。


真正的問題:它在“演”,而不是在“算”

為了量化這種影響,研究人員使用了一個經典評測基準:MMLU(大規模多任務語言理解測試)。這個測試覆蓋多個學科,常被用來衡量大模型的綜合能力。

評測之后,結果非常直接:

● 不加“人設”:準確率 71.6%

● 加“專家人設”:準確率 68.0%

更重要的是,這種下降幾乎出現在所有學科類別中,而不僅僅是個別任務。這說明了一個問題:“人設提示”確實改變了模型的行為方式,但這種改變,并不總是好的。

對于這個結果,研究團隊給出的解釋非常耐人尋味:

“人設前綴可能激活了模型的‘指令執行模式’,從而擠占了原本用于‘事實回憶’的能力。”

解釋一下,從模型機制來看,大語言模型本質上是在做“概率生成”。當你告訴它“你是一位專家”,它并不會獲得任何新的知識,也不會解鎖新的推理能力,但會進入一種更偏“指令執行”和“角色模擬”的模式。而這,就帶來了一個微妙但關鍵的變化:原本用于“從預訓練數據中檢索事實”的能力,被部分“擠占”了。

簡單來說,就是模型開始更關注“如何像專家說話”,而不是“答案本身是否正確”。這也是為什么在編程和數學任務中,“人設”反而成為了模型的負擔。

不過,雖然準確性下降,但在人類更關心的“安全”和“規范”上,人設提示確實有明顯幫助。

例如,在安全性測試中引入一個類似“安全審查員(Safety Monitor)”的人設后,模型拒絕惡意請求的能力將明顯提升。其中在 JailbreakBench 測試中:原始模型拒絕率為53.2%,但加了“人設”后拒絕率提升 17.7 個百分點,變為70.9%。


對開發者來說,有點反直覺的結論

基于以上發現,研究人員在論文中明確表示:

讓 AI 扮演“專家程序員”,不會提升代碼質量或實用性。

這對很多開發者來說,可能是一個需要“糾正”的習慣。

因為在實際使用中,大量開發者的 Prompt 都包含類似話術: “你是 Google 級別的架構專家” 、 “你擁有 20 年開發經驗”……這些描述看似增強了“專業性”,實際上并沒有給模型帶來任何實質性的能力提升。

不過研究也指出,雖然“泛化的人設”沒什么用,但具體、細粒度的約束卻是有效的。例如:

● 明確前端框架(React / Vue)

● 指定架構模式(微服務 / 單體)

● 限定工具鏈(Docker / Kubernetes)

● 描述代碼風格、接口規范

因為本質上來說,這些屬于“對齊信息”、“需求約束”,而不是“身份設定”,它們的作用是幫助模型更好地對齊你的目標,而不是讓它“扮演某個人”。


一個更工程化的解法:PRISM

既然人設提示“有利有弊”,那有沒有辦法兩者兼顧呢?

針對這個問題,研究團隊提出了一種新的方法,叫做 PRISM(基于意圖的人設路由機制)。它的核心思想有點像“動態開關”:一般情況下保持原始模型,主要確保知識與準確性,僅在需要時啟用“人設行為”。

在實現上,它借助了一種叫 LoRA(低秩適配)的技術,通過一個“門控機制”來自動判斷使用哪種模式。簡單來說,這就讓模型具備一種能力:該認真的時候就認真算,該演的時候再去演。

在論文的最后,研究人員總結了一條非常實用的經驗法則:

● 當你更關心“對齊”(安全、格式、規則)時→可以加人設,并具體描述要求;

● 當你更關心“準確性和事實”時→ 不要加任何設定,直接提問。

某種程度上來說,“你是一位專家”這句話,本質上更像是寫給人看的,而不是寫給模型看的——它滿足的是人類對“專業感”的心理預期,卻未必真能提升結果質量。

有時候,想讓模型輸出得更好,并不用讓它“更像人”,而是盡量別干擾它本就擅長的事情。

參考鏈接:https://www.theregister.com/2026/03/24/ai_models_persona_prompting/

110 萬美金懸賞!

AMD 2026 線上黑客松大賽來襲

從 MXFP4 MoE 算子爆改,到真實千倍并發下的吞吐量極限拉扯

不看資歷,只看絕對速度

挑戰DeepSeek?R1/KimiK2.5極致并發

入圍即能拿 1 萬美金

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
就在剛剛!廣東德比賽前傳來3大壞消息,杜鋒這回真笑不出來了

就在剛剛!廣東德比賽前傳來3大壞消息,杜鋒這回真笑不出來了

林子說事
2026-04-26 11:16:05
內娛第一刀,批量斬頂流

內娛第一刀,批量斬頂流

最人物
2026-04-25 14:39:41
姚安娜喜提華為Pura X Max 網友:又美又颯

姚安娜喜提華為Pura X Max 網友:又美又颯

快科技
2026-04-25 23:16:13
河北偷狗女子社會性死亡:人被拘了,名聲臭了,更惡心的還在后面

河北偷狗女子社會性死亡:人被拘了,名聲臭了,更惡心的還在后面

社會日日鮮
2026-04-25 19:02:51
山姆“爆雷”,3億中產炸了!

山姆“爆雷”,3億中產炸了!

新零售參考Pro
2026-04-23 16:31:50
誰給的勇氣?廣州隊季后賽門票,遠超其他球隊 CBA最貴

誰給的勇氣?廣州隊季后賽門票,遠超其他球隊 CBA最貴

體育哲人
2026-04-26 09:44:15
自制“飯卡手機”涌入閑魚!二手最低148塊,運行iOS系統

自制“飯卡手機”涌入閑魚!二手最低148塊,運行iOS系統

閑搞機
2026-04-26 11:00:09
千年難遇的美人,太漂亮了,沒有一點毛病,太完美了

千年難遇的美人,太漂亮了,沒有一點毛病,太完美了

情感大頭說說
2026-04-24 12:46:24
皇室獨苗悠仁19歲選妃,4大條件層層篩選,第4條直接勸退所有人

皇室獨苗悠仁19歲選妃,4大條件層層篩選,第4條直接勸退所有人

z千年歷史老號
2026-04-24 11:37:07
利好!29歲趙心童有望沖到世界第1:特魯姆普被扣50萬鎊 都怪沙特

利好!29歲趙心童有望沖到世界第1:特魯姆普被扣50萬鎊 都怪沙特

風過鄉
2026-04-26 08:18:40
葉新萍被查實!科室1.3億收入賬上只剩5964萬,舉報人懸賞一套房

葉新萍被查實!科室1.3億收入賬上只剩5964萬,舉報人懸賞一套房

阿萊美食匯
2026-04-26 13:54:12
史上最大規模化債,已經開始!堅持了30年的信仰,進入倒計時

史上最大規模化債,已經開始!堅持了30年的信仰,進入倒計時

律法刑道
2026-04-26 08:44:05
陳奕迅女兒陳康堤承認與香港網球一哥黃澤林戀愛:是家人介紹的

陳奕迅女兒陳康堤承認與香港網球一哥黃澤林戀愛:是家人介紹的

懂球帝
2026-04-25 16:34:10
廣州7歲男童無法走路說話,被當腦癱治療多年,父母翻病歷發現其出生時顱骨骨折疑在醫院摔傷,醫院否認,一文梳理關鍵時間線

廣州7歲男童無法走路說話,被當腦癱治療多年,父母翻病歷發現其出生時顱骨骨折疑在醫院摔傷,醫院否認,一文梳理關鍵時間線

大象新聞
2026-04-25 16:49:18
白宮新聞秘書萊維特承認脫離特朗普“團隊”后,二人互動中已顯現出關系緊張跡象

白宮新聞秘書萊維特承認脫離特朗普“團隊”后,二人互動中已顯現出關系緊張跡象

熱心市民小黃
2026-04-26 14:50:51
俞敏洪回應東方甄選主播集體離職:是平臺的損失

俞敏洪回應東方甄選主播集體離職:是平臺的損失

澎湃新聞
2026-04-26 09:40:29
慘勝背后暗流涌動!阿森納1-0紐卡重回榜首,球迷為何集體憤怒?

慘勝背后暗流涌動!阿森納1-0紐卡重回榜首,球迷為何集體憤怒?

落夜足球
2026-04-26 14:04:10
黃一鳴回應:孩子100%是王思聰的,不排斥和老頭交往,八十歲也行

黃一鳴回應:孩子100%是王思聰的,不排斥和老頭交往,八十歲也行

奇思妙想草葉君
2026-04-24 19:44:03
蔣萬安發出強硬警告,"中國臺灣省"走向國際,10國選擇明智應對

蔣萬安發出強硬警告,"中國臺灣省"走向國際,10國選擇明智應對

流史歲月
2026-04-25 10:19:34
替補43分!多森姆季后賽大爆發,火箭沒交易輸麻?

替補43分!多森姆季后賽大爆發,火箭沒交易輸麻?

籃球實錄
2026-04-26 14:57:26
2026-04-26 15:20:49
CSDN incentive-icons
CSDN
成就一億技術人
26482文章數 242272關注度
往期回顧 全部

科技要聞

漲價浪潮下,DeepSeek推動AI“價格戰”

頭條要聞

特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

頭條要聞

特朗普2年內遭遇4次刺殺威脅 第一個任期也曾險遭襲擊

體育要聞

那一刻開始,兩支球隊的命運悄然改變了

娛樂要聞

《八千里路云和月》大結局意難平

財經要聞

DeepSeek V4背后,梁文鋒的轉身

汽車要聞

預售19.38萬元起 哈弗猛龍PLUS七座版亮相

態度原創

親子
本地
家居
時尚
公開課

親子要聞

孩子會旺媽媽的6個特點

本地新聞

云游中國|逛世界風箏都 留學生探秘中國傳統文化

家居要聞

自然肌理 溫潤美學

IU的臉,真的有自己的時間線

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版