无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

20歲寫出Transformer的人,真開源了2180億大模型

0
分享至


新智元報道


【新智元導讀】剛剛,Cohere放出2180億參數的MoE大模型Command A+,單張B200可跑,支持48種語言,還帶原生引用能力。但這次發布最炸的,不在參數表上,而在那一個許可證:Apache 2.0。

「Attention Is All You Need」,正是這篇著名的論文,催生了今天所有的大模型。

5月20日,該論文的一位共同作者Aidan Gomez,在X上宣布推出首個完全開源的Apache 2.0許可的模型:Cohere Command A+。


Gomez是前谷歌研究員,如今是Cohere的聯合創始人兼CEO。

Command A+是Command A家族的最后一個模型,也是Cohere的第一個MoE(混合專家)模型。218B總參數,25B激活參數:一次性把視覺輸入、推理、翻譯和AI智能體能力,全部塞進了同一個模型。

最低部署配置:1張NVIDIA B200,或者2張H100。許可證:Apache 2.0。


https://cohere.com/blog/command-a-plus

據VentureBeat報道,這是Cohere歷史上第一個真正可商用的開源旗艦。聯合創始人Nick Frosst稱它是「我們發過最好的模型」。

2180億參數

每次干活的只有250億

2180億參數,聽起來就是個吞算力的巨獸。但Command A+每次生成,真正被激活的只有250億參數。

這正是MoE架構的精髓。

一個MoE模型,會將進來的問題只路由給最擅長處理它的那幾個「專家」神經網絡,其余部分保持休眠。這樣的設計,既讓模型保留了「巨頭級」的知識儲備和推理能力,但運行時的算力和能耗,卻接近一個小得多的模型。

VentureBeat報道,據第三方觀察估計,OpenAI的GPT-5.5、Anthropic的Claude Opus 4.7參數量都在萬億級別,而Command A+每次激活的參數只有250億。

靠MoE省算力,如今是大多數頭部模型的慣常做法。但Cohere在這個基礎上又疊了第二層壓縮:量化。

Command A+提供BF16、FP8和高度壓縮的W4A4三種版本,其中W4A4是這次發布的技術核心。

通常,推理模型一旦被壓縮,復雜問題上的表現會肉眼可見地退步,業內稱之為「量化稅」。

Cohere的做法,是只將MoE專家壓到4-bit,關鍵的注意力通路保留全精度,再疊加一項叫量化感知蒸餾(Quantization-Aware Distillation)的技術。

Cohere稱其W4A4量化方案接近無損。據Cohere發布的性能數據顯示,W4A4版本在低并發下達到每秒375個token,首token延遲僅113毫秒。

正是靠這套方案,讓一個2180億參數的模型,能跑在單張NVIDIA B200上,或者兩張H100上。


不同并發與量化下,Command A+與前代Command A Reasoning的速度和延遲對比。TOPS為每秒生成token數,TTFT為首token延遲。數據由Cohere發布。

這里所謂「單卡運行」,指的是一張數據中心級的Blackwell B200,并非消費級顯卡。

過去一個千億級模型要一整個GPU集群伺候,現在一臺機器搞定。

這正是Cohere這次想講的故事:大參數,不再等于燒錢。

Apache 2.0

一張通往真開源的許可證

如果只看參數和速度,Command A+是一次強大的工程升級。但更值得開發者們注意的,是一張Apache 2.0許可證。

在今天的AI圈,「開源」是一個早被「玩壞」的詞。

很多領先的AI公司放出權重,卻套著限制性的商用條款:大企業不許拿去做商業用途,也不許用它訓練競品模型。下載可以,研究可以,真要賺錢,回來買授權。

Cohere過去在這個方向上也搖擺了很久。

據VentureBeat報道,它此前的Command R、Command R+,采用的是CC-BY-NC 4.0,也就是「知識共享-非商業」許可。研究者和開發者能下載、能折騰、能評測,但嚴禁商用。

也就是說:開放一半,留一半。但到了Command A+,另一半也松開了。

它采用了Apache 2.0,一個OSI認可的真正開源許可證。從獨立開發者到世界500強企業,任何人都可以使用、修改、分發并商業化這個模型,不付授權費,也沒有競業條款。

這是Cohere首次這么做,它在一位寫出Transformer的人的帶領下,全面倒向了真正的開源。

據VentureBeat報道,這個決定由聯合創始人Nick Frosst力主推動。

Frosst是Cohere三位聯合創始人之一,曾在谷歌大腦多倫多實驗室做研究員,是AI教父Geoffrey Hinton在那里最早的雇員之一。

Cohere將旗艦模型從CC-BY-NC 4.0轉到Apache 2.0,意味著企業徹底不必再被供應商捆住。

一家公司可以下載Command A+的權重,用自己高度機密的內部數據做微調,部署在私有服務器甚至氣隙網絡里,從此不再被Cohere的基礎設施、定價變動或API穩定性綁住。

Command A+

把「可追溯」做成模型的原生能力

能跑和敢用,完全是兩回事。

一個模型要真正進入金融、醫療、法律的生產環境,真正的瓶頸不是模型能力,而是可信。

Command A+在這件事上,做了一個原生層面的設計:原生引用(native citation)生成。

當Command A+從外部工具檢索信息時,它不只是把答案合成出來,還會生成所謂的「grounding spans(溯源標記)」。

通過在輸出里嵌入特殊標簽,模型把它給出的每一條事實聲明,直接鏈接到它所引用的那份具體文檔或那一行數據庫記錄。

舉個場景。你讓它出一份當日銷售報告,它給出總銷售額的同時,會明確標出提供這個數字的那一次數據庫查詢結果。出處一目了然,幻覺風險被壓到最低。

這種可追溯性,對于受到嚴格監管的行業尤為重要。

智能體能力,也是這次發布的一個重點。

Command A+支持標準chat template下的對話式工具調用,可以無縫對接內部API、搜索引擎或SQL數據庫。

它還是全多模態的,在128K輸入上下文里原生處理文本和圖像,適合分析掃描發票、圖表和技術手冊。


Command A+與Command A Vision的多模態能力對比,Command A+是Cohere首個多模態推理模型。數據由Cohere發布。

據Cohere發布的性能數據顯示,在測試復雜推理的2-Bench Telecom上,Command A+從前代的37%跳到85%;在衡量智能體編碼能力的Terminal-Bench Hard上,從3%爬到25%;在AIME 25數學測試上,從57%升到90%。


Command A+與前代Command A Reasoning在五項開源基準上的表現對比。數據由Cohere發布。

這些都是VentureBeat援引Cohere自己發布的數據,并非第三方獨立評測。

VentureBeat認為,Command A+以250億激活參數的體量,在純推理和數學上可以媲美體量大出許多的模型;但在深度智能體編碼和綜合智能的廣度上,它目前仍落后于DeepSeek等中國頭部開源模型。

比跑分更重要的,是Command A+把「可追溯」做成了模型的原生能力。

Transformer作者聯手辛頓門徒

讓Cohere真開源了

最后,再說一說Command A+背后的兩個人。


https://arxiv.org/pdf/1706.03762

2017年,Transformer論文《Attention Is All You Need》在谷歌誕生。八位作者中,最年輕的Aidan Gomez當時只有 20 歲,還是Google Brain實習生,還在多倫多大學讀計算機和數學本科。


Aidan Gomez

據TIME報道,為了趕上一個重要AI會議的截稿,他和同事們甚至睡在辦公室里。后來他對TIME坦言,那時沒人能預料到,這篇論文會把整個AI行業帶到今天。

Gomez擅長把底層架構變成能落地的東西。2017年他還發起了FOR.ai,一個讓研究者共享機器學習知識的協作項目,后來演化成Cohere For AI。

2019年,他從谷歌大腦離開,和Ivan Zhang、Nick Frosst一起在多倫多創辦了Cohere。三個人選了一條和OpenAI不一樣的路:不做面向大眾的聊天機器人,只為企業做模型。


Nick Frosst

Frosst是Cohere聯合創始人,曾在AI教父Geoffrey Hinton的谷歌大腦多倫多實驗室做研究員,是那里最早的雇員之一,業內常視他為Hinton的得意門生。研究方向是膠囊網絡和模型可解釋性。

一個寫出Transformer,一個師承Hinton。Cohere從第一天起,就具備了「把前沿研究做成企業能用的產品」的基因。

到了Command A+,在Frosst的力主推動下,Gomez拍板,Cohere徹底松手把旗艦模型的許可證翻到Apache 2.0。

據Cohere官方表示,Command A+是Command A家族的最后一個模型,這往往也意味著下一個家族已經在路上了。

長期以來,數據隱私和成本控制,把企業死死卡在這樣一個瓶頸上:想用前沿AI,就必須依賴中心化的大型算力集群。

這一次,Command A+把前沿級的推理、穩健的智能體工具調用、多模態能力,和一套專為硬件效率設計的架構綁在了一起,這一轉變正在重寫企業采納AI的成本賬。

首先,部署的門檻降了。過去一個千億級模型要一整個GPU集群,現在最低1張B200或2張H100就夠。

其次,推理的開銷也降了。W4A4版本的輸出速度較前代Command A Reasoning最高提升63%,延遲降低17%。算力時間就是金錢,速度上去,單位成本就下來。

第三,多語言的賬也降了。新的分詞器讓非歐洲語言更省token:阿拉伯語少20%,日語少18%,韓語少16%。推理按token計費,token少了,跨國和多語言部署的賬單就跟著薄了。

近期,Cohere還宣布與德國AI公司Aleph Alpha合并。兩家公司方向一致:不押注聊天機器人,而是為政府和大企業做能裝進自家機房的AI。

開源大模型的競爭,已經進入下半場。上半場比的是參數規模,下半場比的是另一件事:誰能讓企業把模型,真正搬進自己的機房。

參考資料:

https://cohere.com/blog/command-a-plus

https://venturebeat.com/technology/cohere-cracks-lossless-quantization-and-native-citations-with-first-full-apache-2-0-licensed-open-model-command-a

編輯:元宇

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“你的教資不想要了?”男老師抱著學生拍視頻,網友都看不下去了

“你的教資不想要了?”男老師抱著學生拍視頻,網友都看不下去了

妍妍教育日記
2026-05-31 09:25:07
謝霆鋒鳥巢開唱王菲藏角落,抬頭就能看見的位置!

謝霆鋒鳥巢開唱王菲藏角落,抬頭就能看見的位置!

動物奇奇怪怪
2026-05-31 21:51:00
王晶點評《給阿嬤的情書》票房一飛沖天原因,內行果然一語中的!

王晶點評《給阿嬤的情書》票房一飛沖天原因,內行果然一語中的!

八卦南風
2026-05-29 11:14:02
SGA談失去衛冕機會:贏一次就夠難了,有太多無法控制的因素

SGA談失去衛冕機會:贏一次就夠難了,有太多無法控制的因素

懂球帝
2026-05-31 12:15:07
從五場惡戰中找答案:盧俊義魯智深并非無敵,梁山第一高手是誰?

從五場惡戰中找答案:盧俊義魯智深并非無敵,梁山第一高手是誰?

大運河時空
2026-05-28 16:30:03
錢再多有什么用?43歲孫儷眼球血管破裂,給所有中年女人敲響警鐘

錢再多有什么用?43歲孫儷眼球血管破裂,給所有中年女人敲響警鐘

青橘罐頭
2026-05-30 10:04:04
胖東來:重大失誤,將停售

胖東來:重大失誤,將停售

觀察者網
2026-05-31 11:02:05
他是北京相聲名家,88歲安享晚年,如今公開“批評”恩師侯寶林

他是北京相聲名家,88歲安享晚年,如今公開“批評”恩師侯寶林

閱微札記
2026-05-30 14:48:22
割四賠五讓當地農戶攔不到收割機,媒體呼吁有關部門調查此事

割四賠五讓當地農戶攔不到收割機,媒體呼吁有關部門調查此事

映射生活的身影
2026-05-31 18:49:29
被向太爆料“出道前坐過牢”,古天樂6個字回應

被向太爆料“出道前坐過牢”,古天樂6個字回應

紅星新聞
2026-05-30 13:59:22
他脫光了站你面前,你卻為一句臟話腿軟

他脫光了站你面前,你卻為一句臟話腿軟

山野有晚風
2026-05-30 00:17:34
中國沒給面子,普京回國后沉默一周認清現實,終究找上哈薩克斯坦

中國沒給面子,普京回國后沉默一周認清現實,終究找上哈薩克斯坦

小陸搞笑日常
2026-05-31 04:35:20
周末信息如何影響市場?明天是紅色星期一?還是黑色星期一?

周末信息如何影響市場?明天是紅色星期一?還是黑色星期一?

春江財富
2026-05-31 09:34:11
馬卡:多球員渴望加盟巴薩,為歐冠冠軍而戰

馬卡:多球員渴望加盟巴薩,為歐冠冠軍而戰

懂球帝
2026-05-31 20:03:58
美國藍色起源火箭大爆炸,敲響了印度制造業的“喪鐘”

美國藍色起源火箭大爆炸,敲響了印度制造業的“喪鐘”

柏拉圖的訴說1
2026-05-31 10:47:52
文班亞馬哭了!馬刺搶七淘汰雷霆!時隔12年重返總決賽

文班亞馬哭了!馬刺搶七淘汰雷霆!時隔12年重返總決賽

五星體育
2026-05-31 11:11:30
歐冠點球大戰阿森納失冠,大巴黎主帥完勝對手,阿爾特塔交學費

歐冠點球大戰阿森納失冠,大巴黎主帥完勝對手,阿爾特塔交學費

云兒評球
2026-05-31 21:45:28
烏克蘭軍官:戰勝俄羅斯不依賴于收復領土,若我們保持獨立就贏了

烏克蘭軍官:戰勝俄羅斯不依賴于收復領土,若我們保持獨立就贏了

究竟誰主沉浮
2026-05-27 17:39:39
歷史驚人相似,中國房地產可能重走2015老路

歷史驚人相似,中國房地產可能重走2015老路

范剬舍長
2026-05-30 19:41:22
從棄將到近億元先生!阿根廷天才2年身價暴漲13倍 皇馬回購賺翻了

從棄將到近億元先生!阿根廷天才2年身價暴漲13倍 皇馬回購賺翻了

萬花筒體育球球
2026-05-31 17:03:36
2026-05-31 22:23:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15351文章數 66894關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

保時捷一天兩次被釘子扎 路面現多個修車廣告報價上千

頭條要聞

保時捷一天兩次被釘子扎 路面現多個修車廣告報價上千

體育要聞

阿森納用最悲壯的方式,成就了巴黎王朝

娛樂要聞

朱軍退休,正義雖遲但到,女方受懲

財經要聞

醫學首席轉崗搞科技,A股科技股遭遇巨震

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

游戲
本地
健康
教育
公開課

LCK第二賽段:HLE連下兩城擊潰BRO,排行榜第一,進軍季后賽

本地新聞

用剪紙的方式,打開江蘇揚州

嘗試干細胞療法如何避免踩坑?

教育要聞

事關所有高考生!2026高考或將出現3個重大變化!家長考生了解

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版