![]()
(來源:麻省理工科技評論)
邁阿密 AI 初創公司Subquadratic上個月走出隱身狀態,帶著一個很大的說法亮相:它聲稱解決了一個困擾大語言模型近十年的數學瓶頸。
細節寥寥,很多人不信。Subquadratic 拿證據一一回應:他們公布了一份獨立評估結果,至少從結果看,這家公司說的也許真值得當回事。
Subquadratic 說自己開發了一種新型大語言模型 SubQ,比市面上所有模型都更快、更便宜、更省電。公司還說SubQ一次能處理的文本量是大多數模型的 12 倍,可以同時分析幾百份文檔或一整個代碼庫。
更重要的是,Subquadratic 說 SubQ 在編程等關鍵任務上的水平基本能追上 Google DeepMind、OpenAI 和Anthropic的頂尖模型。
然而,除了公司最初舉證的幾個分數,幾乎沒提供別的證據,SubQ 也沒有開放試用。
所以一片質疑并不意外。AI 工程師丹·麥卡蒂爾(Dan McAteer)在 X 上的一句話基本說出了所有人的心聲:“SubQ 要么是 Transformer 以來最大的突破……要么是 AI 版 Theranos。”
一個月后,公司補上了更多信息,包括第三方機構Appen做的測試結果。“質疑在我們意料之中,”Subquadratic 聯合創始人兼 CTO 亞歷克斯·惠頓(Alex Whedon)說,“現在回想,第一次發布時就應該把第三方測試一起放出來。以后我們會確保所有結果都驗證過了再發。”
Appen 是一家專門評估 AI 模型的公司。Subquadratic 請它測了 SubQ,結果基本站在了公司這邊。“看到數據我很興奮,它驗證了他們的架構,”Appen 生成式 AI 研究總監珍妮·西納南-辛格(Jeanine Sinanan-Singh)說。
“我當時想,這東西可能真是一個 game changer——模型在速度和效率上一直有瓶頸嘛,”她補充說,“但結果好得這么離譜,自己說出來說服力就差了。”
SubQ 不會在所有任務上取代現有頂級模型,但在某些場景下它可能以極低成本實現巨大的速度提升。Subquadratic 認為長遠來看,這項突破可能改變大語言模型的造法。“我們希望自己正在開啟一個效率新時代,”聯合創始人兼 CEO 賈斯汀·丹格爾(Justin Dangel)說,“我們覺得幾年之后沒人還會在 Transformer 上面造模型。”
![]()
注意力!
要理解 Subquadratic 的說法為什么重要,先得知道大語言模型是怎么工作的。LLM的核心是一種叫 Transformer 的神經網絡,核心操作叫“稠密注意力”(dense attention)。今天的 LLM 通常把好幾個 Transformer 串在一起用。2017 年 Google 研究者發表的那篇開創 LLM 時代的論文,標題就叫《注意力就是你所需要的一切(Attention is all you need)》。
稠密注意力的原理是這樣的:Transformer 拿到一段文本后,先給每個詞(或詞的一部分,叫 token)編上一個數字。為了理解整段話的含義,它要把這些數字兩兩相乘——每一個跟其他所有的都乘一遍。一段 10000 詞的文本,光乘法就要做將近 5000 萬次。計算量驚人,這也是 LLM 出了名費電的根本原因。
“你想給《了不起的蓋茨比》做個摘要,你得把第一個詞和最后一個詞放在一起看,中間每一種組合也不能落下。”丹格爾說。
文本越長,計算量漲得越猛。每多一個詞就要跟前面所有詞各乘一次。詞數翻倍,計算量大約翻四倍。這種增長方式叫二次方擴展。
![]()
砍成本
Subquadratic 的做法是把稠密注意力扔了,換成“稀疏注意力”(sparse attention),計算量一下子砍掉一大截。稀疏注意力不再把每個 token 跟所有其他 token 都乘一遍,而是只挑一部分來乘。道理很簡單:一段文本里并不是所有詞和詞之間的關系都重要。
“稀疏注意力就是承認這一點:那些關系不全都重要,因為它們確實不全都重要,”惠頓說,“你讀一本書不可能從第一個詞開始跟第二個詞配對、跟第三個詞配對——那是瘋了。”
思路簡單,也不是 Subquadratic 第一個想到的。“你能想到的招基本都有人試過了,”獨立 AI 研究者、前 OpenAI 員工威爾·德普(Will Depue)說,“不是不可能,但極其困難,試過的人很多,做到的一個都沒有。”
以前的方案都卡在同一個地方:選出來的乘法組合理解文本含義的效果,始終比不上稠密注意力那種全部乘一遍的笨辦法。
Subquadratic 說它終于做到了。SubQ 是第一個在性能上能追平主流稠密注意力模型的稀疏注意力 LLM。
“以前大多數方案用的是死規矩,比如永遠把第一個詞跟第五個詞放一起比,”惠頓說,“太死板了。語言哪有這么簡單。我們跟別人不一樣的地方是:哪些詞重要,我們讓模型自己判斷,實時決定。
具體怎么判斷的,公司拒絕透露。每段不同的文本,選出來的重點詞都不一樣,選擇過程是實時算出來的。“這就是我們的殺手锏。”惠頓說。
![]()
測測看
說了這么多,效果到底怎樣?Appen 用幾項基準測試跑了一遍。先測純速度,看模型理論上能跑多快,不管它能干什么。結果 SubQ 比使用 FlashAttention(一種此前的稀疏注意力技術)的模型快 56 倍。
再測編程能力。LiveCodeBench 這個測試用的是真實編程競賽的題目,SubQ 拿了 89.7%,跟其他頂尖編程模型在同一檔。“這個模型在編程上持續保持前沿水平。”Appen 的西納南-辛格說。
成本方面的說法比較難驗證,因為 SubQ 還沒大范圍開放。丹格爾說讓 Anthropic 的 Opus 4.6 跑一遍 RULER 128(Nvidia 設計的一個測試,看模型從大數據集中檢索信息的能力)要花 2600 美元。SubQ 呢?“我們花了 8 美元。”
SubQ 處理超大數據集的能力看起來確實強。它的上下文窗口(可以粗略理解為工作記憶)最長 1200 萬個 token,目前大多數頂級模型是 100 萬。惠頓給我做了個演示:讓 SubQ 從 400 份文檔中提取信息并做推理,幾秒鐘出結果。同樣的任務交給 Perplexity(一個流行的 LLM 搜索引擎),它連 400 份文檔都加載不完。
Appen 還跑了“大海撈針”測試——看模型能不能從海量數據中找到一條特定信息。SubQ 在 600 萬和 1200 萬 token 的上下文窗口下都拿了 98%。Appen 的報告說它“在極少有模型被測試過的規模上保持了近乎完美的檢索能力”。
分數再高,基準測試也只能畫出模型能力的局部圖。在特定條件下跑出來的好成績,不等于在各種真實場景下都好用。
Subquadratic 把 SubQ 定位為編程和超大數據集搜索的專用模型。公司說已有數萬人注冊了早期使用權,包括 500 多家企業客戶。但排隊的人很多,真正用上的很少。Subquadratic 的解釋是公司太新、太小、人手不夠,一次服務不了那么多人。
沒有更多人親手試過之前,保持懷疑是合理的。有一個點讓人犯嘀咕:Subquadratic 搭建 SubQ 時復用了開源模型通義千問(Qwen)一個版本的權重(訓練過程中確定下來的參數值,決定模型怎么表現),不是從頭訓練的。這在模型開發中很常見,但跟 Subquadratic “徹底重新發明了 LLM 工作方式”的說法不太搭。
“他們也許確實造出了一個有用的東西,”德普說,“但就目前公開的證據來看,還不足以支撐那個更大的聲明:說他們已經解決了二次方注意力瓶頸。”
惠頓堅持說走一條不一樣的路是他唯一的選擇。要造一個有競爭力的模型,就得有新想法:“我們比 OpenAI 更輸不起。”
https://www.technologyreview.com/2026/06/19/1139313/a-startup-claims-it-broke-through-a-bottleneck-thats-holding-back-llms/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.