網易首頁 > 網易號 > 正文申請入駐

13人團隊叫板Anthropic：我們造了一個更快更便宜的大模型

2026-06-20 17:13:28　來源: DeepTech深科技

北京舉報

分享至

（來源：麻省理工科技評論）

邁阿密 AI 初創公司Subquadratic上個月走出隱身狀態，帶著一個很大的說法亮相：它聲稱解決了一個困擾大語言模型近十年的數學瓶頸。

細節寥寥，很多人不信。Subquadratic 拿證據一一回應：他們公布了一份獨立評估結果，至少從結果看，這家公司說的也許真值得當回事。

Subquadratic 說自己開發了一種新型大語言模型 SubQ，比市面上所有模型都更快、更便宜、更省電。公司還說SubQ一次能處理的文本量是大多數模型的 12 倍，可以同時分析幾百份文檔或一整個代碼庫。

更重要的是，Subquadratic 說 SubQ 在編程等關鍵任務上的水平基本能追上 Google DeepMind、OpenAI 和Anthropic的頂尖模型。

然而，除了公司最初舉證的幾個分數，幾乎沒提供別的證據，SubQ 也沒有開放試用。

所以一片質疑并不意外。AI 工程師丹·麥卡蒂爾（Dan McAteer）在 X 上的一句話基本說出了所有人的心聲：“SubQ 要么是 Transformer 以來最大的突破……要么是 AI 版 Theranos。”

一個月后，公司補上了更多信息，包括第三方機構Appen做的測試結果。“質疑在我們意料之中，”Subquadratic 聯合創始人兼 CTO 亞歷克斯·惠頓（Alex Whedon）說，“現在回想，第一次發布時就應該把第三方測試一起放出來。以后我們會確保所有結果都驗證過了再發。”

Appen 是一家專門評估 AI 模型的公司。Subquadratic 請它測了 SubQ，結果基本站在了公司這邊。“看到數據我很興奮，它驗證了他們的架構，”Appen 生成式 AI 研究總監珍妮·西納南-辛格（Jeanine Sinanan-Singh）說。

“我當時想，這東西可能真是一個 game changer——模型在速度和效率上一直有瓶頸嘛，”她補充說，“但結果好得這么離譜，自己說出來說服力就差了。”

SubQ 不會在所有任務上取代現有頂級模型，但在某些場景下它可能以極低成本實現巨大的速度提升。Subquadratic 認為長遠來看，這項突破可能改變大語言模型的造法。“我們希望自己正在開啟一個效率新時代，”聯合創始人兼 CEO 賈斯汀·丹格爾（Justin Dangel）說，“我們覺得幾年之后沒人還會在 Transformer 上面造模型。”

注意力！

要理解 Subquadratic 的說法為什么重要，先得知道大語言模型是怎么工作的。LLM的核心是一種叫 Transformer 的神經網絡，核心操作叫“稠密注意力”（dense attention）。今天的 LLM 通常把好幾個 Transformer 串在一起用。2017 年 Google 研究者發表的那篇開創 LLM 時代的論文，標題就叫《注意力就是你所需要的一切（Attention is all you need）》。

稠密注意力的原理是這樣的：Transformer 拿到一段文本后，先給每個詞（或詞的一部分，叫 token）編上一個數字。為了理解整段話的含義，它要把這些數字兩兩相乘——每一個跟其他所有的都乘一遍。一段 10000 詞的文本，光乘法就要做將近 5000 萬次。計算量驚人，這也是 LLM 出了名費電的根本原因。

“你想給《了不起的蓋茨比》做個摘要，你得把第一個詞和最后一個詞放在一起看，中間每一種組合也不能落下。”丹格爾說。

文本越長，計算量漲得越猛。每多一個詞就要跟前面所有詞各乘一次。詞數翻倍，計算量大約翻四倍。這種增長方式叫二次方擴展。

砍成本

Subquadratic 的做法是把稠密注意力扔了，換成“稀疏注意力”（sparse attention），計算量一下子砍掉一大截。稀疏注意力不再把每個 token 跟所有其他 token 都乘一遍，而是只挑一部分來乘。道理很簡單：一段文本里并不是所有詞和詞之間的關系都重要。

“稀疏注意力就是承認這一點：那些關系不全都重要，因為它們確實不全都重要，”惠頓說，“你讀一本書不可能從第一個詞開始跟第二個詞配對、跟第三個詞配對——那是瘋了。”

思路簡單，也不是 Subquadratic 第一個想到的。“你能想到的招基本都有人試過了，”獨立 AI 研究者、前 OpenAI 員工威爾·德普（Will Depue）說，“不是不可能，但極其困難，試過的人很多，做到的一個都沒有。”

以前的方案都卡在同一個地方：選出來的乘法組合理解文本含義的效果，始終比不上稠密注意力那種全部乘一遍的笨辦法。

Subquadratic 說它終于做到了。SubQ 是第一個在性能上能追平主流稠密注意力模型的稀疏注意力 LLM。

“以前大多數方案用的是死規矩，比如永遠把第一個詞跟第五個詞放一起比，”惠頓說，“太死板了。語言哪有這么簡單。我們跟別人不一樣的地方是：哪些詞重要，我們讓模型自己判斷，實時決定。

具體怎么判斷的，公司拒絕透露。每段不同的文本，選出來的重點詞都不一樣，選擇過程是實時算出來的。“這就是我們的殺手锏。”惠頓說。

測測看

說了這么多，效果到底怎樣？Appen 用幾項基準測試跑了一遍。先測純速度，看模型理論上能跑多快，不管它能干什么。結果 SubQ 比使用 FlashAttention（一種此前的稀疏注意力技術）的模型快 56 倍。

再測編程能力。LiveCodeBench 這個測試用的是真實編程競賽的題目，SubQ 拿了 89.7%，跟其他頂尖編程模型在同一檔。“這個模型在編程上持續保持前沿水平。”Appen 的西納南-辛格說。

成本方面的說法比較難驗證，因為 SubQ 還沒大范圍開放。丹格爾說讓 Anthropic 的 Opus 4.6 跑一遍 RULER 128（Nvidia 設計的一個測試，看模型從大數據集中檢索信息的能力）要花 2600 美元。SubQ 呢？“我們花了 8 美元。”

SubQ 處理超大數據集的能力看起來確實強。它的上下文窗口（可以粗略理解為工作記憶）最長 1200 萬個 token，目前大多數頂級模型是 100 萬。惠頓給我做了個演示：讓 SubQ 從 400 份文檔中提取信息并做推理，幾秒鐘出結果。同樣的任務交給 Perplexity（一個流行的 LLM 搜索引擎），它連 400 份文檔都加載不完。

Appen 還跑了“大海撈針”測試——看模型能不能從海量數據中找到一條特定信息。SubQ 在 600 萬和 1200 萬 token 的上下文窗口下都拿了 98%。Appen 的報告說它“在極少有模型被測試過的規模上保持了近乎完美的檢索能力”。

分數再高，基準測試也只能畫出模型能力的局部圖。在特定條件下跑出來的好成績，不等于在各種真實場景下都好用。

Subquadratic 把 SubQ 定位為編程和超大數據集搜索的專用模型。公司說已有數萬人注冊了早期使用權，包括 500 多家企業客戶。但排隊的人很多，真正用上的很少。Subquadratic 的解釋是公司太新、太小、人手不夠，一次服務不了那么多人。

沒有更多人親手試過之前，保持懷疑是合理的。有一個點讓人犯嘀咕：Subquadratic 搭建 SubQ 時復用了開源模型通義千問（Qwen）一個版本的權重（訓練過程中確定下來的參數值，決定模型怎么表現），不是從頭訓練的。這在模型開發中很常見，但跟 Subquadratic “徹底重新發明了 LLM 工作方式”的說法不太搭。

“他們也許確實造出了一個有用的東西，”德普說，“但就目前公開的證據來看，還不足以支撐那個更大的聲明：說他們已經解決了二次方注意力瓶頸。”

惠頓堅持說走一條不一樣的路是他唯一的選擇。要造一個有競爭力的模型，就得有新想法：“我們比 OpenAI 更輸不起。”

https://www.technologyreview.com/2026/06/19/1139313/a-startup-claims-it-broke-through-a-bottleneck-thats-holding-back-llms/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.