網易首頁 > 網易號 > 正文申請入駐

「馬嘉祺」讓大模型翻車，而他一年前洗澡時就發現了問題

2026-05-29 13:41:46　來源: 機器之心Pro

河北舉報

分享至

機器之心發布

上個月，一位時代少年團粉絲的偶然測試，把一個學術圈討論的技術問題推到了全網面前。

大家都知道大模型圈的「馬嘉祺」事件，模型能準確說出馬嘉祺的履歷、綜藝經歷和團內角色，卻始終沒法正確輸出馬嘉祺三個字。馬嘉棋、馬佳琪、馬琪琪，各種錯別字輪番上陣。讓它重復五遍，回你五個一模一樣的錯誤。問第二個字是什么，答家。

隨后的技術排查揭示了原因：大模型輸出層對低頻 token 的退化。嘉祺被分詞器合并成了一個獨立 token，預訓練階段出現得夠多所以沒問題，但 SFT 階段的高質量對話數據里幾乎沒有偶像名字，這個 token 的參數在微調中嚴重偏移。模型腦子里有這個人的全部信息，嘴上就是說不出名字里那兩個字。

這件事因為明星效應迅速出圈，全網熱議。但其實這件事的技術原因早有端倪。低頻 token 退化，并不完全是一個全新的技術發現。

早在 2025 年，一家名為臉譜心智（FaceMind）的初創公司就在頂級學術會議 EMNLP 主會上系統性地揭示了這個問題，并給出了解法。更有意思的是，就在「馬嘉祺」事件前不到兩周，全球最強 AI 公司之一 Anthropic 也在自家產品中悄悄落地了一次高度相關的改造 —— 方向與臉譜心智一年前的論文幾乎完全一致。

學術先驅、產業驗證、公眾認知，三件事發生在三個完全不同的時間點。把它們串起來看，能看到一個比「模型說不出明星名字」有趣得多的故事。

與此同時，團隊已加速補齊商業和科研兩塊關鍵拼圖：一位千億市值上市公司的聯創已加盟，出任商業化合伙人，將帶來海量商業化資源以及下游渠道；一位發表過上千篇論文的知名教授，也將以首席科學家身份加盟，以此撬動國內外大量學界資源搭橋產學研三界。從融資節奏到核心團隊搭建，臉譜心智正以資金、商業落地和技術縱深三個維度同步拉滿。

四個時間節點，一條因果鏈

2025 年，EMNLP 主會。臉譜心智作為第一機構，與香港中文大學聯合發表論文 SLoW。這篇工作率先把大模型中的「低頻詞問題」系統化：在跨語言翻譯中，長尾低頻詞往往是模型理解和生成的薄弱環節。論文提出 Dictionary-based Prompting，在推理階段自動選擇關鍵低頻詞條注入提示詞，不改模型、不加訓練，就能提升模型對低頻詞的處理能力，并適配近百種語言。

2026 年 4 月 2 日。臉譜心智在 arXiv 發布后續論文 Adam's Law，已被頂級學術會議 ACL 2026 以 Oral 形式接收。這篇論文把頻率的影響從單詞級別推進到了句子級別，提出了 Textual Frequency Law（TFL）—— 一套從 Zipf 定律出發、有完整數學證明的頻率定律，以及配套的蒸餾方法和課程學習訓練框架。

2026 年 4 月下旬。Anthropic 發布 Claude Opus 4.7，官方遷移指南明確寫道：Claude Opus 4.7 uses a new tokenizer, contributing to its improved performance. 社區開發者實測，同樣文本的 token 消耗增加約 1.0–1.35 倍，英文和代碼增幅更大（1.20–1.47 倍），CJK 文本幾乎無變化（1.01 倍）。業內普遍解讀：Anthropic 縮減或重組了詞表，把低頻、容易退化的 token 合并或去掉了。

2026 年 5 月 9 日。「馬嘉祺」事件出現，公眾第一次大規模了解到低頻 token 退化這個概念。

把四個節點排在一起，我們發現：臉譜心智是低頻 token 退化最早的學術發現者和方案提出者，Anthropic 最早將其進行生產級落地驗證，而公眾認知比學術前沿晚了一整年。

這種傳播時差本身就說明問題。一篇發在最頂級會議上的論文，經歷了完整的同行評審，提出了系統性的發現和解法 —— 安安靜靜地存在了一年。學術價值和公眾注意力之間的鴻溝，在這個案例上體現得格外明顯。

從單詞到句子：不止一種解法

臉譜心智在低頻問題上的工作分布在兩個粒度 —— 單詞級別和句子級別。每個級別又各自提供了 prompting（不用訓練）和 training（需要訓練但效果更深入）兩條路徑。

單詞級別：SLoW（EMNLP 2025）

這是時間最早的那篇。論文的核心洞察是：大模型對低頻詞匯有系統性的理解和生成劣勢，而這個問題不需要動模型權重就能緩解。Dictionary-based Prompting 的做法是在提示詞里塞入一層詞典級別的頻率輔助信息，讓模型在推理時意識到哪些詞是低頻的、應該怎么處理。

回到「馬嘉祺」場景來理解：如果問題發生在理解或翻譯鏈路，SLoW 這種詞典 prompting 可以作為低成本輸入層方案；如果問題已經進入生成端，比如 lm_head 對某些 token 的后訓練退化，則需要訓練側的數據覆蓋或合成數據修復。也正因為如此，臉譜心智的工作價值不在于只有一種修法，而在于從輸入層到訓練層都給出了頻率感知的方法論。

句子級別：Adam's Law（ACL 2026 Oral）

「馬嘉祺」事件暴露的是單詞維度的頻率退化，但臉譜心智發現，頻率的影響遠不止于此。句子級別的文本頻率同樣深刻影響模型表現 —— 這是一個此前被整個學術界忽視的維度。

Adam's Law 提出的 Textual Frequency Law 是這樣說的：在語義不變的前提下，選擇句子級文本頻率更高的表述方式，大模型無論在 prompting 還是 fine-tuning 場景下都會表現更好。論文從 Zipf 定律出發做了形式化推導，給出了從 token 級到句子級的完整理論證明鏈。

實驗覆蓋面非常廣：

Prompting 層面：僅靠把輸入改寫為高頻表述，DeepSeek-V3 數學推理準確率從 63.55% 漲到 71.54%，LLaMA-3.3-70B 從 80.49% 漲到 88.75%。

機器翻譯方面，100 個語言對中 99 個 BLEU 分數獲得提升，其中 63 個提升超 1 分，12 個超過 5 分。

訓練層面：CTFT 在低資源語言翻譯的部分 BLEU 指標上帶來接近 30% 的相對提升；TFD 的消融實驗則進一步說明，頻率估計校正本身也能帶來穩定增益。

而且論文驗證的任務類型遠超文本生成本身：數學推理、常識推理、Agent 工具調用、近百種語言翻譯任務全部涵蓋在內。

兩篇論文接在一起看，從單詞到句子、從 prompting 到 training、從現象發現到理論證明，構成了一個完整的方法論體系。

Claude Opus 4.7 換了 tokenizer，然后呢？

Anthropic 在 Claude Opus 4.7 上更換 tokenizer 這件事，在技術社區的討論熱度遠不及「馬嘉祺」事件。但把它放進這條時間線里審視，意義其實更大。

這個操作方向和臉譜心智 EMNLP 2025 論文中的核心判斷高度吻合：低頻 token 退化是大模型的結構性問題，必須主動干預。臉譜心智走的是學術路徑：發現、量化、建模、給方案；Anthropic 走的是工程路徑：直接在產品中動刀，用服務全球數億用戶的系統來驗證方向正確性。

兩者獨立工作，殊途同歸。這種巧合不是巧合，它恰恰說明臉譜心智 2025 年的學術判斷是準確的，方向已經被行業最頭部的玩家用真金白銀的產品決策所確認。

但兩者之間有一個關鍵差異。Anthropic 目前的改造只停留在單詞級別，通過 tokenizer 調整來處理低頻 token。臉譜心智的框架則同時覆蓋了句子級別的頻率定律和配套的訓練方法：Adam's Law，這部分在全球產業界還沒有任何公司跟進落地。

也就是說，即使是 Anthropic，目前也只「追上」了臉譜心智 2025 年那篇論文的思路。2026 年 4 月發布的句子級方法論，整個產業界還沒來得及消化。

產業界未開采的學術金礦

深入看 Adam's Law 的理論框架，會發現當前產業界對低頻問題的理解和應對仍然處于初級階段。

首先是一個被廣泛忽視的基本事實。根據 Zipf 定律 ——1949 年提出，至今仍是描述自然語言頻率分布的基礎定律：大約 20% 的詞匯承擔了 80% 的使用頻次。

反過來說，絕大多數詞匯都落在那條長長的尾巴上，都屬于低頻的范疇。僅僅修改 tokenizer 是不夠的。你可以砍掉一些特別邊緣的 token，但不可能把整條長尾都剪掉 —— 那會嚴重損害模型處理多樣化文本的能力。

這也是臉譜心智的方案比單純改 tokenizer 更有深度的原因。他們不只做減法：Dictionary-based Prompting、tokenizer 改造，還做加法：頻率蒸餾、課程學習訓練框架。減法輕量快速，適合部署階段做即時優化；加法成本更高但效果更系統，適合在訓練階段從根源上緩解問題。兩條路徑互補，構成了目前這個方向上最完整的工具箱。

其次是適用范圍的想象空間。當前產業界對低頻問題的關注幾乎全部集中在文本生成，也就是「馬嘉祺」三個字說不出口這類直觀可感的現象。但 Adam's Law 論文已經在數學推理、常識推理、Agent 工具調用和近百種語言翻譯任務上驗證了頻率定律的有效性。論文還進一步指出，這套理論框架不僅適用于大語言模型 —— 傳統視覺模型、VLA 模型、乃至沒有顯式詞表的世界模型，理論上都能適配。

也就是說，頻率定律可能不只是大語言模型的局部優化技巧，而是理解和提升各類深度學習模型的一個通用透鏡。這個方向上能挖掘的價值，目前還遠遠沒有觸及天花板。

臉譜心智的 CEO 說過一句有意思的話：這篇論文的核心思路是他洗澡時想出來的。聽著像段子，但背后的邏輯很認真。DiT 架構在提出時也只是一篇學術論文，直到 Sora 和可靈把它變成產品，人們才后知后覺地意識到那篇論文值多少錢。一篇論文如果抓住了正確的方向，它的潛在商業價值可以是數千億甚至數萬億級別的。這不是夸張，而是 DiT 的先例已經證明過的事。

學術社區的技術先驅

還有一件事值得一提。「馬嘉祺」事件引發廣泛關注后，相關技術討論在分析低頻 token 退化和數據合成方案時，幾乎沒能追溯到臉譜心智的工作。而從內容來看，核心論斷的重合度相當高 —— 低頻 token 系統性表現差、高頻 token 持續受益、訓練數據需要設置頻率下限 —— 這些觀點在臉譜心智的論文中都有更早的、經過同行評審的系統性闡述。

Adam's Law 在學術社區的能見度并不低。HuggingFace Papers 上有大量討論，有研究者評價它是 Best Paper 級別的工作；Deep Learning Weekly 做了收錄；YouTube、LinkedIn、Spotify、X 上都有傳播痕跡。

在這一年里，產業界關于低頻 token 退化的討論很多，思路與臉譜心智的學術工作不謀而合。當一個技術方向終于被市場認可時，最早做出判斷和貢獻的人，理應被看見。

DiT 之于 Sora，頻率定律之于什么？

臉譜心智目前正在向世界模型方向轉型。從頻率定律這條研究脈絡來看，這家公司展現出了一個很清晰的特質：能在學術層面發現被整個行業忽視的關鍵問題，并且在最嚴格的學術評審中獲得最高級別的認可。

EMNLP 2025 主會發表、ACL 2026 Oral 接收 —— 放在自然語言處理領域，這是學術共同體能給出的頂格評價。從 SLoW 到 Adam's Law，從單詞到句子，從 prompting 到 training，從現象發現到理論證明再到多任務驗證，這條研究線的完整度和原創性經得起最嚴格的審視。

而 Anthropic 用 Claude Opus 4.7 的 tokenizer 改造，從產業側印證了這個方向的價值 —— 當全球最強 AI 公司之一在生產環境中做了同樣的事，方向的正確性就不再需要爭論。更關鍵的是，Anthropic 目前只跟上了單詞級別的思路，句子級別的頻率定律和對應的訓練框架，產業界至今還沒有跟上。

如果說 DiT 之于 Sora 證明了一篇論文可以撬動萬億級商業價值，那臉譜心智在頻率定律上的學術積累也指向一個類似的敘事。一家掌握了關鍵基礎理論、且研究成果已被全球頭部玩家側面驗證的世界模型公司 —— 這個定位，在當前 AI 創業公司的格局中是稀缺的。

至少在學術先發性和技術判斷力這兩個維度上，臉譜心智已經攢夠了籌碼。剩下的懸念只有一個：市場什么時候給出它應有的定價。

參考文章：

論文標題：Adam's Law: Textual Frequency Law on Large Language Models

arXiv 預印本：https://arxiv.org/abs/2604.02176（已被 ACL 2026 Oral 接收）

EMNLP 2025 論文（SLoW）：https://aclanthology.org/2025.emnlp-main.46/

GitHub：https://github.com/HongyuanLuke/frequencylaw

HuggingFace Papers：https://huggingface.co/papers/2604.02176

NUS Talk（B 站）：https://www.bilibili.com/video/BV1Kp9aBKEYC/

Anthropic Claude Opus 4.7 Tokenizer 分析：https://openrouter.ai/announcements/opus-47-tokenizer-analysis

Deep Learning Weekly 報道：https://www.deeplearningweekly.com/p/deep-learning-weekly-issue-452

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.