網易首頁 > 網易號 > 正文申請入駐

20歲寫出Transformer的人，真開源了2180億大模型

2026-05-22 15:33:41　來源: 新智元

北京舉報

分享至

新智元報道

【新智元導讀】剛剛，Cohere放出2180億參數的MoE大模型Command A+，單張B200可跑，支持48種語言，還帶原生引用能力。但這次發布最炸的，不在參數表上，而在那一個許可證：Apache 2.0。

「Attention Is All You Need」，正是這篇著名的論文，催生了今天所有的大模型。

5月20日，該論文的一位共同作者Aidan Gomez，在X上宣布推出首個完全開源的Apache 2.0許可的模型：Cohere Command A+。

Gomez是前谷歌研究員，如今是Cohere的聯合創始人兼CEO。

Command A+是Command A家族的最后一個模型，也是Cohere的第一個MoE（混合專家）模型。218B總參數，25B激活參數：一次性把視覺輸入、推理、翻譯和AI智能體能力，全部塞進了同一個模型。

最低部署配置：1張NVIDIA B200，或者2張H100。許可證：Apache 2.0。

https://cohere.com/blog/command-a-plus

據VentureBeat報道，這是Cohere歷史上第一個真正可商用的開源旗艦。聯合創始人Nick Frosst稱它是「我們發過最好的模型」。

2180億參數

每次干活的只有250億

2180億參數，聽起來就是個吞算力的巨獸。但Command A+每次生成，真正被激活的只有250億參數。

這正是MoE架構的精髓。

一個MoE模型，會將進來的問題只路由給最擅長處理它的那幾個「專家」神經網絡，其余部分保持休眠。這樣的設計，既讓模型保留了「巨頭級」的知識儲備和推理能力，但運行時的算力和能耗，卻接近一個小得多的模型。

VentureBeat報道，據第三方觀察估計，OpenAI的GPT-5.5、Anthropic的Claude Opus 4.7參數量都在萬億級別，而Command A+每次激活的參數只有250億。

靠MoE省算力，如今是大多數頭部模型的慣常做法。但Cohere在這個基礎上又疊了第二層壓縮：量化。

Command A+提供BF16、FP8和高度壓縮的W4A4三種版本，其中W4A4是這次發布的技術核心。

通常，推理模型一旦被壓縮，復雜問題上的表現會肉眼可見地退步，業內稱之為「量化稅」。

Cohere的做法，是只將MoE專家壓到4-bit，關鍵的注意力通路保留全精度，再疊加一項叫量化感知蒸餾（Quantization-Aware Distillation）的技術。

Cohere稱其W4A4量化方案接近無損。據Cohere發布的性能數據顯示，W4A4版本在低并發下達到每秒375個token，首token延遲僅113毫秒。

正是靠這套方案，讓一個2180億參數的模型，能跑在單張NVIDIA B200上，或者兩張H100上。

不同并發與量化下，Command A+與前代Command A Reasoning的速度和延遲對比。TOPS為每秒生成token數，TTFT為首token延遲。數據由Cohere發布。

這里所謂「單卡運行」，指的是一張數據中心級的Blackwell B200，并非消費級顯卡。

過去一個千億級模型要一整個GPU集群伺候，現在一臺機器搞定。

這正是Cohere這次想講的故事：大參數，不再等于燒錢。

Apache 2.0

一張通往真開源的許可證

如果只看參數和速度，Command A+是一次強大的工程升級。但更值得開發者們注意的，是一張Apache 2.0許可證。

在今天的AI圈，「開源」是一個早被「玩壞」的詞。

很多領先的AI公司放出權重，卻套著限制性的商用條款：大企業不許拿去做商業用途，也不許用它訓練競品模型。下載可以，研究可以，真要賺錢，回來買授權。

Cohere過去在這個方向上也搖擺了很久。

據VentureBeat報道，它此前的Command R、Command R+，采用的是CC-BY-NC 4.0，也就是「知識共享-非商業」許可。研究者和開發者能下載、能折騰、能評測，但嚴禁商用。

也就是說：開放一半，留一半。但到了Command A+，另一半也松開了。

它采用了Apache 2.0，一個OSI認可的真正開源許可證。從獨立開發者到世界500強企業，任何人都可以使用、修改、分發并商業化這個模型，不付授權費，也沒有競業條款。

這是Cohere首次這么做，它在一位寫出Transformer的人的帶領下，全面倒向了真正的開源。

據VentureBeat報道，這個決定由聯合創始人Nick Frosst力主推動。

Frosst是Cohere三位聯合創始人之一，曾在谷歌大腦多倫多實驗室做研究員，是AI教父Geoffrey Hinton在那里最早的雇員之一。

Cohere將旗艦模型從CC-BY-NC 4.0轉到Apache 2.0，意味著企業徹底不必再被供應商捆住。

一家公司可以下載Command A+的權重，用自己高度機密的內部數據做微調，部署在私有服務器甚至氣隙網絡里，從此不再被Cohere的基礎設施、定價變動或API穩定性綁住。

Command A+

把「可追溯」做成模型的原生能力

能跑和敢用，完全是兩回事。

一個模型要真正進入金融、醫療、法律的生產環境，真正的瓶頸不是模型能力，而是可信。

Command A+在這件事上，做了一個原生層面的設計：原生引用（native citation）生成。

當Command A+從外部工具檢索信息時，它不只是把答案合成出來，還會生成所謂的「grounding spans（溯源標記）」。

通過在輸出里嵌入特殊標簽，模型把它給出的每一條事實聲明，直接鏈接到它所引用的那份具體文檔或那一行數據庫記錄。

舉個場景。你讓它出一份當日銷售報告，它給出總銷售額的同時，會明確標出提供這個數字的那一次數據庫查詢結果。出處一目了然，幻覺風險被壓到最低。

這種可追溯性，對于受到嚴格監管的行業尤為重要。

智能體能力，也是這次發布的一個重點。

Command A+支持標準chat template下的對話式工具調用，可以無縫對接內部API、搜索引擎或SQL數據庫。

它還是全多模態的，在128K輸入上下文里原生處理文本和圖像，適合分析掃描發票、圖表和技術手冊。

Command A+與Command A Vision的多模態能力對比，Command A+是Cohere首個多模態推理模型。數據由Cohere發布。

據Cohere發布的性能數據顯示，在測試復雜推理的2-Bench Telecom上，Command A+從前代的37%跳到85%；在衡量智能體編碼能力的Terminal-Bench Hard上，從3%爬到25%；在AIME 25數學測試上，從57%升到90%。

Command A+與前代Command A Reasoning在五項開源基準上的表現對比。數據由Cohere發布。

這些都是VentureBeat援引Cohere自己發布的數據，并非第三方獨立評測。

VentureBeat認為，Command A+以250億激活參數的體量，在純推理和數學上可以媲美體量大出許多的模型；但在深度智能體編碼和綜合智能的廣度上，它目前仍落后于DeepSeek等中國頭部開源模型。

比跑分更重要的，是Command A+把「可追溯」做成了模型的原生能力。

Transformer作者聯手辛頓門徒

讓Cohere真開源了

最后，再說一說Command A+背后的兩個人。

https://arxiv.org/pdf/1706.03762

2017年，Transformer論文《Attention Is All You Need》在谷歌誕生。八位作者中，最年輕的Aidan Gomez當時只有 20 歲，還是Google Brain實習生，還在多倫多大學讀計算機和數學本科。

Aidan Gomez

據TIME報道，為了趕上一個重要AI會議的截稿，他和同事們甚至睡在辦公室里。后來他對TIME坦言，那時沒人能預料到，這篇論文會把整個AI行業帶到今天。

Gomez擅長把底層架構變成能落地的東西。2017年他還發起了FOR.ai，一個讓研究者共享機器學習知識的協作項目，后來演化成Cohere For AI。

2019年，他從谷歌大腦離開，和Ivan Zhang、Nick Frosst一起在多倫多創辦了Cohere。三個人選了一條和OpenAI不一樣的路：不做面向大眾的聊天機器人，只為企業做模型。

Nick Frosst

Frosst是Cohere聯合創始人，曾在AI教父Geoffrey Hinton的谷歌大腦多倫多實驗室做研究員，是那里最早的雇員之一，業內常視他為Hinton的得意門生。研究方向是膠囊網絡和模型可解釋性。

一個寫出Transformer，一個師承Hinton。Cohere從第一天起，就具備了「把前沿研究做成企業能用的產品」的基因。

到了Command A+，在Frosst的力主推動下，Gomez拍板，Cohere徹底松手把旗艦模型的許可證翻到Apache 2.0。

據Cohere官方表示，Command A+是Command A家族的最后一個模型，這往往也意味著下一個家族已經在路上了。

長期以來，數據隱私和成本控制，把企業死死卡在這樣一個瓶頸上：想用前沿AI，就必須依賴中心化的大型算力集群。

這一次，Command A+把前沿級的推理、穩健的智能體工具調用、多模態能力，和一套專為硬件效率設計的架構綁在了一起，這一轉變正在重寫企業采納AI的成本賬。

首先，部署的門檻降了。過去一個千億級模型要一整個GPU集群，現在最低1張B200或2張H100就夠。

其次，推理的開銷也降了。W4A4版本的輸出速度較前代Command A Reasoning最高提升63%，延遲降低17%。算力時間就是金錢，速度上去，單位成本就下來。

第三，多語言的賬也降了。新的分詞器讓非歐洲語言更省token：阿拉伯語少20%，日語少18%，韓語少16%。推理按token計費，token少了，跨國和多語言部署的賬單就跟著薄了。

近期，Cohere還宣布與德國AI公司Aleph Alpha合并。兩家公司方向一致：不押注聊天機器人，而是為政府和大企業做能裝進自家機房的AI。

開源大模型的競爭，已經進入下半場。上半場比的是參數規模，下半場比的是另一件事：誰能讓企業把模型，真正搬進自己的機房。

參考資料：

https://cohere.com/blog/command-a-plus

https://venturebeat.com/technology/cohere-cracks-lossless-quantization-and-native-citations-with-first-full-apache-2-0-licensed-open-model-command-a

編輯：元宇

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

新智元

AI產業主平臺領航智能+時代

15351文章數 66894關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

本地

健康

教育

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
七個無法存下錢的壞習慣
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

20歲寫出Transformer的人，真開源了2180億大模型

戴爾諾基亞又回來了！AI重估老牌科技公司

保時捷一天兩次被釘子扎 路面現多個修車廣告報價上千

保時捷一天兩次被釘子扎 路面現多個修車廣告報價上千

阿森納用最悲壯的方式，成就了巴黎王朝

朱軍退休，正義雖遲但到，女方受懲

醫學首席轉崗搞科技，A股科技股遭遇巨震

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

LCK第二賽段：HLE連下兩城擊潰BRO，排行榜第一，進軍季后賽

用剪紙的方式，打開江蘇揚州

嘗試干細胞療法如何避免踩坑？

事關所有高考生！2026高考或將出現3個重大變化！家長考生了解

保時捷一天兩次被釘子扎路面現多個修車廣告報價上千

保時捷一天兩次被釘子扎路面現多個修車廣告報價上千

900V+3.2秒破百領克10+&領克10上市16.99萬元起