![]()
新智元報道
![]()
【新智元導讀】剛剛,Cohere放出2180億參數的MoE大模型Command A+,單張B200可跑,支持48種語言,還帶原生引用能力。但這次發布最炸的,不在參數表上,而在那一個許可證:Apache 2.0。
「Attention Is All You Need」,正是這篇著名的論文,催生了今天所有的大模型。
5月20日,該論文的一位共同作者Aidan Gomez,在X上宣布推出首個完全開源的Apache 2.0許可的模型:Cohere Command A+。
![]()
Gomez是前谷歌研究員,如今是Cohere的聯合創始人兼CEO。
Command A+是Command A家族的最后一個模型,也是Cohere的第一個MoE(混合專家)模型。218B總參數,25B激活參數:一次性把視覺輸入、推理、翻譯和AI智能體能力,全部塞進了同一個模型。
最低部署配置:1張NVIDIA B200,或者2張H100。許可證:Apache 2.0。
![]()
https://cohere.com/blog/command-a-plus
據VentureBeat報道,這是Cohere歷史上第一個真正可商用的開源旗艦。聯合創始人Nick Frosst稱它是「我們發過最好的模型」。
2180億參數
每次干活的只有250億
2180億參數,聽起來就是個吞算力的巨獸。但Command A+每次生成,真正被激活的只有250億參數。
這正是MoE架構的精髓。
一個MoE模型,會將進來的問題只路由給最擅長處理它的那幾個「專家」神經網絡,其余部分保持休眠。這樣的設計,既讓模型保留了「巨頭級」的知識儲備和推理能力,但運行時的算力和能耗,卻接近一個小得多的模型。
VentureBeat報道,據第三方觀察估計,OpenAI的GPT-5.5、Anthropic的Claude Opus 4.7參數量都在萬億級別,而Command A+每次激活的參數只有250億。
靠MoE省算力,如今是大多數頭部模型的慣常做法。但Cohere在這個基礎上又疊了第二層壓縮:量化。
Command A+提供BF16、FP8和高度壓縮的W4A4三種版本,其中W4A4是這次發布的技術核心。
通常,推理模型一旦被壓縮,復雜問題上的表現會肉眼可見地退步,業內稱之為「量化稅」。
Cohere的做法,是只將MoE專家壓到4-bit,關鍵的注意力通路保留全精度,再疊加一項叫量化感知蒸餾(Quantization-Aware Distillation)的技術。
Cohere稱其W4A4量化方案接近無損。據Cohere發布的性能數據顯示,W4A4版本在低并發下達到每秒375個token,首token延遲僅113毫秒。
正是靠這套方案,讓一個2180億參數的模型,能跑在單張NVIDIA B200上,或者兩張H100上。
![]()
不同并發與量化下,Command A+與前代Command A Reasoning的速度和延遲對比。TOPS為每秒生成token數,TTFT為首token延遲。數據由Cohere發布。
這里所謂「單卡運行」,指的是一張數據中心級的Blackwell B200,并非消費級顯卡。
過去一個千億級模型要一整個GPU集群伺候,現在一臺機器搞定。
這正是Cohere這次想講的故事:大參數,不再等于燒錢。
Apache 2.0
一張通往真開源的許可證
如果只看參數和速度,Command A+是一次強大的工程升級。但更值得開發者們注意的,是一張Apache 2.0許可證。
在今天的AI圈,「開源」是一個早被「玩壞」的詞。
很多領先的AI公司放出權重,卻套著限制性的商用條款:大企業不許拿去做商業用途,也不許用它訓練競品模型。下載可以,研究可以,真要賺錢,回來買授權。
Cohere過去在這個方向上也搖擺了很久。
據VentureBeat報道,它此前的Command R、Command R+,采用的是CC-BY-NC 4.0,也就是「知識共享-非商業」許可。研究者和開發者能下載、能折騰、能評測,但嚴禁商用。
也就是說:開放一半,留一半。但到了Command A+,另一半也松開了。
它采用了Apache 2.0,一個OSI認可的真正開源許可證。從獨立開發者到世界500強企業,任何人都可以使用、修改、分發并商業化這個模型,不付授權費,也沒有競業條款。
這是Cohere首次這么做,它在一位寫出Transformer的人的帶領下,全面倒向了真正的開源。
據VentureBeat報道,這個決定由聯合創始人Nick Frosst力主推動。
Frosst是Cohere三位聯合創始人之一,曾在谷歌大腦多倫多實驗室做研究員,是AI教父Geoffrey Hinton在那里最早的雇員之一。
Cohere將旗艦模型從CC-BY-NC 4.0轉到Apache 2.0,意味著企業徹底不必再被供應商捆住。
一家公司可以下載Command A+的權重,用自己高度機密的內部數據做微調,部署在私有服務器甚至氣隙網絡里,從此不再被Cohere的基礎設施、定價變動或API穩定性綁住。
Command A+
把「可追溯」做成模型的原生能力
能跑和敢用,完全是兩回事。
一個模型要真正進入金融、醫療、法律的生產環境,真正的瓶頸不是模型能力,而是可信。
Command A+在這件事上,做了一個原生層面的設計:原生引用(native citation)生成。
當Command A+從外部工具檢索信息時,它不只是把答案合成出來,還會生成所謂的「grounding spans(溯源標記)」。
通過在輸出里嵌入特殊標簽,模型把它給出的每一條事實聲明,直接鏈接到它所引用的那份具體文檔或那一行數據庫記錄。
舉個場景。你讓它出一份當日銷售報告,它給出總銷售額的同時,會明確標出提供這個數字的那一次數據庫查詢結果。出處一目了然,幻覺風險被壓到最低。
這種可追溯性,對于受到嚴格監管的行業尤為重要。
智能體能力,也是這次發布的一個重點。
Command A+支持標準chat template下的對話式工具調用,可以無縫對接內部API、搜索引擎或SQL數據庫。
它還是全多模態的,在128K輸入上下文里原生處理文本和圖像,適合分析掃描發票、圖表和技術手冊。
![]()
Command A+與Command A Vision的多模態能力對比,Command A+是Cohere首個多模態推理模型。數據由Cohere發布。
據Cohere發布的性能數據顯示,在測試復雜推理的2-Bench Telecom上,Command A+從前代的37%跳到85%;在衡量智能體編碼能力的Terminal-Bench Hard上,從3%爬到25%;在AIME 25數學測試上,從57%升到90%。
![]()
Command A+與前代Command A Reasoning在五項開源基準上的表現對比。數據由Cohere發布。
這些都是VentureBeat援引Cohere自己發布的數據,并非第三方獨立評測。
VentureBeat認為,Command A+以250億激活參數的體量,在純推理和數學上可以媲美體量大出許多的模型;但在深度智能體編碼和綜合智能的廣度上,它目前仍落后于DeepSeek等中國頭部開源模型。
比跑分更重要的,是Command A+把「可追溯」做成了模型的原生能力。
Transformer作者聯手辛頓門徒
讓Cohere真開源了
最后,再說一說Command A+背后的兩個人。
![]()
https://arxiv.org/pdf/1706.03762
2017年,Transformer論文《Attention Is All You Need》在谷歌誕生。八位作者中,最年輕的Aidan Gomez當時只有 20 歲,還是Google Brain實習生,還在多倫多大學讀計算機和數學本科。
![]()
Aidan Gomez
據TIME報道,為了趕上一個重要AI會議的截稿,他和同事們甚至睡在辦公室里。后來他對TIME坦言,那時沒人能預料到,這篇論文會把整個AI行業帶到今天。
Gomez擅長把底層架構變成能落地的東西。2017年他還發起了FOR.ai,一個讓研究者共享機器學習知識的協作項目,后來演化成Cohere For AI。
2019年,他從谷歌大腦離開,和Ivan Zhang、Nick Frosst一起在多倫多創辦了Cohere。三個人選了一條和OpenAI不一樣的路:不做面向大眾的聊天機器人,只為企業做模型。
![]()
Nick Frosst
Frosst是Cohere聯合創始人,曾在AI教父Geoffrey Hinton的谷歌大腦多倫多實驗室做研究員,是那里最早的雇員之一,業內常視他為Hinton的得意門生。研究方向是膠囊網絡和模型可解釋性。
一個寫出Transformer,一個師承Hinton。Cohere從第一天起,就具備了「把前沿研究做成企業能用的產品」的基因。
到了Command A+,在Frosst的力主推動下,Gomez拍板,Cohere徹底松手把旗艦模型的許可證翻到Apache 2.0。
據Cohere官方表示,Command A+是Command A家族的最后一個模型,這往往也意味著下一個家族已經在路上了。
長期以來,數據隱私和成本控制,把企業死死卡在這樣一個瓶頸上:想用前沿AI,就必須依賴中心化的大型算力集群。
這一次,Command A+把前沿級的推理、穩健的智能體工具調用、多模態能力,和一套專為硬件效率設計的架構綁在了一起,這一轉變正在重寫企業采納AI的成本賬。
首先,部署的門檻降了。過去一個千億級模型要一整個GPU集群,現在最低1張B200或2張H100就夠。
其次,推理的開銷也降了。W4A4版本的輸出速度較前代Command A Reasoning最高提升63%,延遲降低17%。算力時間就是金錢,速度上去,單位成本就下來。
第三,多語言的賬也降了。新的分詞器讓非歐洲語言更省token:阿拉伯語少20%,日語少18%,韓語少16%。推理按token計費,token少了,跨國和多語言部署的賬單就跟著薄了。
近期,Cohere還宣布與德國AI公司Aleph Alpha合并。兩家公司方向一致:不押注聊天機器人,而是為政府和大企業做能裝進自家機房的AI。
開源大模型的競爭,已經進入下半場。上半場比的是參數規模,下半場比的是另一件事:誰能讓企業把模型,真正搬進自己的機房。
參考資料:
https://cohere.com/blog/command-a-plus
https://venturebeat.com/technology/cohere-cracks-lossless-quantization-and-native-citations-with-first-full-apache-2-0-licensed-open-model-command-a
編輯:元宇
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.