![]()
先做個小測試。
讀下面這段話:
“他感到胸口發緊,冷汗順著脊背滑落,周圍的燈光似乎暗了下來。空氣中彌漫著一種說不清的氣息,像雨后的泥土,又像某種古老的記憶。”
再讀這段話:
“張三很害怕。他不知道為什么,但他就是覺得不對勁。他想起了小時候外婆講的那個故事。”
直覺告訴你,哪段是AI寫的?
大概率是第一段。因為你已經“進化”出了鑒別AI寫作的雷達——那些過度描寫感官體驗、把“恐懼”包裝成一堆生理反應的文字,怎么看怎么像ChatGPT的手筆。
過去一年,網上充斥著各種“AI寫作鑒別指南”:愛用破折號?AI寫的。愛用“首先、其次、最后”?AI寫的。形容詞堆砌?AI寫的。但這些都屬于“風格特征”——換一套提示詞就能輕松繞過。很多人相信,只要會“調教”AI,就能讓機器寫出和人類別無二致的文字。
但馬里蘭大學和Google DeepMind的團隊告訴你:別費勁了,AI寫故事的“底層操作系統”和人類完全不同,改提示詞也救不了。
(論文地址:https://arxiv.org/abs/2604.03136)
一場“文學解剖”實驗
2026年4月,馬里蘭大學計算機系Jenna Russell團隊聯合Google DeepMind在arXiv上發表了論文《StoryScope: Investigating idiosyncrasies in AI fiction》(《故事顯微鏡:探究AI小說的特質》)。
5月28日,沃頓商學院教授Ethan Mollick在X上分享了這篇論文,配文說:“關于AI寫作風格特征(破折號之類的)已經寫了很多,但這篇論文關注的是AI的敘事特征。AI和人類敘事之間存在令人著迷的差異,而且讓AI用不同風格寫作,也幾乎改變不了這一點。”
![]()
Ethan Mollick于2026年5月28日在X上分享的論文核心圖表,獲得31.5萬次查看
短短一天,這條推文獲得31.5萬次查看,3000多個點贊,近600次轉發。AI圈的學者、寫作者、普通讀者都被同一個問題吸引了:AI到底會不會講故事?
實驗的規模大得驚人:他們收集了10272個寫作提示(相當于寫作題目),每個提示分別由人類作者和五個大語言模型Claude、DeepSeek、Gemini、GPT、Kimi各寫一篇故事,每篇約5000詞。最終獲得了61608篇故事,每篇提取304個敘事特征。
這是什么概念?相當于把六萬多部小說的“骨架”一根根拆開,放在顯微鏡下比對,從情節結構、角色能動性、時間連貫性到對話密度,無所不包。
研究團隊開發了一個名為StoryScope的自動化分析管道,能從10個維度自動歸納出細粒度的、可解釋的敘事特征,涵蓋情節、主體、時間結構等層面,然后對比AI生成的和人類寫的,看看骨頭架子到底有什么不同。
結果完全不看用詞、句式、標點這些風格信號,僅用敘事特征,就能以93.2%的準確率區分人類和AI寫作;在“六個作者分別是誰”的六類歸屬任務中,準確率達到68.4%。作為對比,包含了風格線索的完整模型,準確率也就高出不到3%。
換句話說,AI寫作的“底層敘事邏輯”本身就是一張明牌。哪怕你把所有破折號都刪掉、把所有“首先其次最后”換成口語化表達,你的敘事骨架依然會出賣你。
AI寫故事,到底哪里不對勁?
研究團隊將核心差異歸納為五個維度。
AI太愛“說教”了。AI寫的故事,就像一個生怕你讀不懂的語文老師。77%的情況下,AI的敘事者會直接點明故事主題:“這個故事告訴我們……”,而人類作者的這一比例只有52%。AI故事里的對話出現哲學討論的比例是59%,而人類只有34%。
更明顯的是:AI對其他作品的引用全是“模糊的暗指”(占比72%),而人類作者更傾向于直接說“像《百年孤獨》里那樣”......明確提及作品名稱占50%。AI的潛臺詞似乎是:“我告訴你一個道理,你好好聽著。”人類的潛臺詞則是:“你自己品。”
你可能會說,這不是很負責任嗎?把道理講清楚不好嗎?問題在于,好的故事從來不靠“講道理”打動人。托爾斯泰不會在《安娜·卡列尼娜》結尾寫“這個故事告訴我們,出軌沒有好下場”——他讓讀者自己去感受。而AI做不到“放手”,它必須把每件事都說透。
人類會“跳時間線”,AI只會一條道走到黑。人類講故事喜歡玩花樣:從葬禮開場,然后倒敘幾十年前的事情,再突然閃回到現在。這種非線性敘事在AI那里幾乎不存在。數據顯示:79%的AI故事“沒有支線情節”,而人類故事的這個比例是57%。AI故事的主角驅動型結局占69%,而人類只有46%。
人類更喜歡讓故事“懸著”,留給讀者想象空間。人類故事的結局更偏向開放式模糊結局,讓讀者自己去琢磨“然后呢”。AI則必須給每個角色一個交代:主角要么頓悟了,要么接受了現實(占47%),而人類只有27%會這么做。
研究團隊舉了個生動的例子:讓AI和人類分別寫一個懸疑故事,人類可能從葬禮開場,再倒敘幾十年前的恩怨;而AI會從第一條線索開始,按時間順序一路推進到大結局,中間沒有任何“岔路”。
AI對“身體描寫”上癮。回到開頭的測試。AI寫作最顯著的特征之一:不會直接說情緒,而是用身體反應和環境描寫來“演”情緒。
數據顯示,81%的情況下AI會通過生理感受和身體隱喻來傳達情緒(人類只有38%)。AI使用嗅覺意象的比例高達82%(人類57%),還喜歡把環境設定作為角色內心狀態的映射。人類作者寫“張三害怕了”,就是一句話。
AI寫“害怕”:胸口發緊、冷汗直流、燈光變暗、空氣中彌漫著某種氣息……人類明確使用情緒標簽(“感到害怕”“很憤怒”)的比例是29%,而AI只有8%。這暴露了一個本質問題:AI沒有真正的情緒體驗,它只能從訓練數據中學習“情緒的外在表現”,然后用一種“教科書式”的方式把它們堆砌起來。
它知道恐懼會讓人出汗,但它不知道出汗是什么感覺。所以它的描寫總有一種“用力過猛”的違和感——就像一個人從沒吃過檸檬,卻要寫檸檬的酸味。
人類會“打破第四面墻”,AI只會悶頭寫。人類作者有一個AI學不會的絕活:和讀者直接對話。“你,親愛的讀者,一定猜不到接下來發生了什么……”這種打破“第四面墻”的寫法,28%的人類作品會用到,AI只有7%。
同時,人類寫作提及具體文本和作者的比例幾乎是AI的兩倍(47% vs 24%)。人類能自如地在顯性引用和隱性參考之間切換(37%的人類作品是“混合模式”,AI僅16%),而AI只能躲在模糊的暗指背后,仿佛生怕暴露自己“沒讀過什么書”。
這絕不是因為AI“沒讀過”,它的訓練數據里什么書都有——而是因為它不知道什么時候該說“我在引用”,什么時候該保持沉默。換句話說,AI的敘事是“沒有讀者意識”的敘事。它不在乎你在不在看,不在乎你能不能跟上,它只是在“完成任務”。
AI的故事“撞臉”嚴重。AI生成的故事在“敘事空間”中擠作一團,而人類的故事散落在四面八方。人類的故事素材庫更豐富,涉及更多地點、對話占比更高、更多支線融入核心主題(42% vs 21%),也更常塑造存在道德矛盾的主角(59% vs 38%)。
人類的主角可以是好人也是壞人,可以既善良又自私;AI的主角則傾向于“偉光正”。AI的問題不是“寫得不好”,而是“寫得都一樣”。它被困在一個狹窄的“默認敘事模板”,出不來。即便你給不同的AI模型同一個提示詞,它們寫出的故事在敘事空間中的位置也驚人地接近。
每個AI都有自己的“敘事指紋”
論文最有趣的發現來了:不同AI模型寫故事的方式,就像不同作家的“筆跡”一樣,各有各的毛病。
論文摘要中明確列出了三個模型的指紋特征——Claude的事件升級格外平淡,GPT過度使用夢境序列,Gemini默認使用外部視角描述角色。基于論文實驗數據的進一步分析推斷,DeepSeek和Kimi也呈現出各自鮮明的敘事傾向。
什么意思呢?如果你看到一篇小說里頻繁出現“夢境的轉折”,那八成是GPT寫的;如果整個故事波瀾不驚,情節推進像白開水,那大概率是Claude的手筆;如果每個角色都從外部描述,像在看人物檔案卡,那Gemini跑不掉。更厲害的是,用這些“指紋”做六類歸屬(從五個AI模型和人類中識別具體作者),準確率高達68.4%。
更扎心的是,論文還發現:所有AI模型生成的故事在敘事空間中聚集在同一個共享區域,而人類故事則散布在更廣闊的空間里。
也就是說,不管你是Claude還是GPT,不管你的“寫作風格”如何調整,你們的“敘事DNA”其實是一家人。這種“敘事趨同”現象,可能是大語言模型訓練范式的某種固有問題——它們都從相似的語料中學習“什么是一個好故事”,然后得出了相似的結論。
“去AI味”還有意義嗎?
這項研究的出現,恰逢“去AI味”成為熱門話題。就在論文發布的同一個月,中文互聯網上掀起了關于“豆包體”的群嘲——那些“最”“非常”“深深地”滿天飛的AI生成文本,讓網友笑到打鳴。各種“消除AI味的不完全手冊”也應運而生。與此同時,尼日利亞作家納齊爾的小說《林間之蛇》被指控存在大量“AI寫作痕跡”,文學界的AI寫作爭議愈演愈烈。
但StoryScope的結論潑了一盆冷水:改詞匯、換句式、調標點,這些都是“表面功夫”。你讓AI寫“我很難過”而不是“一股悲傷涌上心頭”,改變不了它的敘事結構。你把所有破折號都刪掉,也改變不了它偏愛單線程敘事、回避道德模糊性的“底層代碼”。
Ethan Mollick在推文中特別強調:“要求AI用不同風格寫作,也幾乎改變不了敘事層面的這些差異。”
這其實觸及了一個更深刻的問題:AI到底能不能“像人類一樣”創作?
從風格層面看,可以。提示詞寫得好,AI能模仿海明威的簡潔、博爾赫斯的迷宮、王小波的戲謔。但從敘事層面看,AI在“怎么編故事”這件事上,和人類有著根本性的不同——它不經歷生活,不理解死亡,不知道什么是“欲說還休”,所以它只能套用一個“標準的故事模板”。
這或許才是AI寫作和人類寫作之間,最難以跨越的鴻溝。
論文的結尾,研究團隊拋出了一個值得深思的問題:隨著AI生成文本越來越多地混入人類創作中,我們如何定義“原創性”?
他們公開了StoryScope的全部代碼、10272個寫作提示,以及51336篇AI生成的敘事文本(部分提示因生成失敗未納入),供學術界進一步研究。這更像是一種“預警”——當AI生成的文字洪水般涌入文學市場時,我們需要一套能穿透表層、直達敘事底層的“照妖鏡”。
而對于每一個用AI輔助寫作的人來說,這篇論文或許也在提醒:別只想著“去AI味”,想想你到底想表達什么。因為AI可以幫你寫出通順的文字,但它永遠無法替你經歷一段人生——而后者,才是好故事的真正來源。(本文首發鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 焦燕)
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.