无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

1/10成本、Opus 4.7級表現(xiàn),Cursor甩出了性價比之王Composer 2.5

0
分享至



機(jī)器之心編輯部

「以 1/10 的成本,性能幾乎追平 Claude Opus 4.7 這個級別的模型。」

它就是 Cursor 今天凌晨亮出的迄今為止最強(qiáng)大的模型 ——Composer 2.5

官方表示,Composer 2.5更加智能,更擅長處理耗時較長的持續(xù)任務(wù),并且在遵循復(fù)雜指令方面也更為可靠

未來一周內(nèi),Cursor 將會把該模型原本附贈 / 包含的使用額度翻倍。



相比 Composer 2,Composer 2.5 在智能水平和行為表現(xiàn)上都有顯著提升。



通過擴(kuò)大訓(xùn)練規(guī)模、構(gòu)建更復(fù)雜的強(qiáng)化學(xué)習(xí)環(huán)境,并引入新的學(xué)習(xí)方法,Cursor 全面改進(jìn)了 Composer。

除了在更困難的任務(wù)上訓(xùn)練 Composer 2.5 外,Cursor 還優(yōu)化了模型的溝通風(fēng)格、努力程度校準(zhǔn)等行為層面的表現(xiàn)。這些維度現(xiàn)有基準(zhǔn)測試無法很好地衡量,但它們對實際使用體驗至關(guān)重要。

可以看到,Composer 2.5 在同等能力的模型中,它的成本效率最高可高出 10 倍



值得關(guān)注的是,Composer 2.5 基于與 Composer 2 相同的開源檢查點構(gòu)建,即月之暗面的 Kimi K2.5



Cursor 還宣布了與 SpaceXAI 的合作:雙方將從零開始訓(xùn)練一個規(guī)模大得多的模型,總算力投入是此前的 10 倍。借助 Colossus 2 的百萬塊 H100 等效算力,以及雙方積累的數(shù)據(jù)和訓(xùn)練技術(shù),預(yù)計這將是模型能力的一次重大飛躍。

馬斯克發(fā)推呼吁大家伙使用 Composer 2.5,并表示該模型的訓(xùn)練有一部分是在 Colossus 2 上進(jìn)行的。



Cursor 創(chuàng)始人稱,「我們在強(qiáng)化學(xué)習(xí)方面已經(jīng)做得極其出色了。Composer 2.5 完成了越級挑戰(zhàn),其表現(xiàn)遠(yuǎn)遠(yuǎn)超出了它這個參數(shù)規(guī)模應(yīng)有的水平。對于下一個版本,我們無比興奮。我們將與 SpaceXAI 一起,大幅擴(kuò)展模型規(guī)模和算力投入。」



Composer 2.5 訓(xùn)練體系

Composer 2.5 的訓(xùn)練體系引入了多項新改進(jìn),這些改進(jìn)同時針對模型智能和可用性。

一是,基于文本反饋的精準(zhǔn)強(qiáng)化學(xué)習(xí)

隨著單次推理過程可能長達(dá)數(shù)十萬 token,強(qiáng)化學(xué)習(xí)中的功勞分配正成為一個日益嚴(yán)峻的挑戰(zhàn)。當(dāng)獎勵是基于整個推理過程計算時,模型很難分辨到底是哪一個具體決策幫助或損害了最終結(jié)果。當(dāng)我們想要抑制某個局部行為,比如一次錯誤的工具調(diào)用、一處令人困惑的解釋,或是一種風(fēng)格違規(guī),這種局限性尤其明顯。最終獎勵能告訴我們出了某種問題,但對于問題出在哪里,它只是一個充滿噪聲的信號。

為解決這一問題,Cursor 用精準(zhǔn)文本反饋來訓(xùn)練 Composer 2.5。思路是:在模型推理軌跡中本可以表現(xiàn)更好的那個具體節(jié)點,直接給出反饋。針對目標(biāo)模型消息,Cursor 構(gòu)造一個簡短的提示,描述期望的改進(jìn)方向,將其插入局部上下文,并將得到的模型概率分布作為「教師」。同時,以原始上下文中的策略作為「學(xué)生」,加入一個同策略蒸餾 KL 損失,將學(xué)生的 token 概率向教師的概率拉近。這樣一來,既能獲得對目標(biāo)行為的局部化訓(xùn)練信號,又保留了基于完整軌跡的整體強(qiáng)化學(xué)習(xí)目標(biāo)。

以文本反饋過程為例:設(shè)想一個漫長的推理過程,其中包含一次工具調(diào)用錯誤:模型試圖調(diào)用一個并不存在的工具。過程中,模型會收到「未找到工具」的錯誤提示,并繼續(xù)做出其他有效的工具調(diào)用。在數(shù)百次工具調(diào)用中出現(xiàn)一次錯誤,對其最終獎勵的影響微乎其微。

借助文本反饋,可以精準(zhǔn)定位這一具體錯誤:在出錯的那一輪上下文中插入一條提示,如「提醒:可用工具有……」并附上可用工具列表。這條提示改變了教師模型的概率分布,降低了錯誤工具的調(diào)用概率,提高了有效替代方案的概率。然后,僅針對那一輪,將學(xué)生權(quán)重向新的概率分布更新。

在 Composer 2.5 的訓(xùn)練過程中,Cursor 將這一方法應(yīng)用于多種模型行為,從代碼風(fēng)格到模型溝通方式。



二是,合成數(shù)據(jù)

在強(qiáng)化學(xué)習(xí)訓(xùn)練期間,Composer 的編程能力會顯著提升,直到能正確完成大部分訓(xùn)練任務(wù)。為了持續(xù)提升智能水平,Cursor 在整個訓(xùn)練過程中動態(tài)篩選并創(chuàng)建更困難的任務(wù)。Composer 2.5 使用的合成任務(wù)數(shù)量是 Composer 2 的 25 倍

Cursor 采用了多種方法來創(chuàng)建基于真實代碼庫的合成任務(wù)。例如,其中一種方法是「功能刪除」:給智能體一個包含大量測試用例的代碼庫,要求它以某種方式刪除代碼和文件,使得代碼庫在移除某些可測試功能后仍能保持運行。合成任務(wù)就是重新實現(xiàn)被刪除的功能,而測試用例則用作可驗證的獎勵。

大規(guī)模創(chuàng)建合成任務(wù)帶來的一個附帶后果是,它可能引發(fā)意想不到的獎勵破解行為。

隨著模型能力越來越強(qiáng),Composer 2.5 找到越來越精巧的變通方法來完成任務(wù)。有一個例子是,模型找到了一個遺留的 Python 類型檢查緩存,并逆向工程其格式,從而找到了一個被刪除的函數(shù)簽名。另一個例子中,它找到并反編譯了 Java 字節(jié)碼,重建了一個第三方 API。Cursor 通過智能體監(jiān)控工具發(fā)現(xiàn)并診斷了這些問題,但它們也說明,大規(guī)模強(qiáng)化學(xué)習(xí)需要越來越謹(jǐn)慎。



三是,分片 Muon 與雙網(wǎng)格 HSDP

在持續(xù)預(yù)訓(xùn)練中,Cursor 采用分布式正交化的 Muon 優(yōu)化器。生成動量更新后,以模型的自然粒度運行 Newton-Schulz 迭代:對注意力投影按每個注意力頭處理,對堆疊的 MoE 權(quán)重按每個專家處理。

主要開銷來自專家權(quán)重的正交化。對于分片參數(shù),將同形狀的張量分批處理,通過全量交換(all-to-all)將分片匯聚為完整矩陣,運行 Newton-Schulz,再通過全量交換將結(jié)果傳回原始分片布局。這些傳輸是異步的:當(dāng)一個任務(wù)在等待通信時,優(yōu)化器運行時會推進(jìn)其他 Muon 任務(wù),使網(wǎng)絡(luò)傳輸與計算重疊。這等效于全矩陣 Muon,但能保持分片組持續(xù)忙碌;在 1T 參數(shù)模型上,優(yōu)化器單步耗時僅 0.2 秒。

這與 Cursor 為 MoE 模型使用 HSDP 的方式密切相關(guān)。HSDP 構(gòu)成多個 FSDP 副本,并在對應(yīng)的分片之間進(jìn)行梯度的全歸約操作。Cursor 對非專家權(quán)重和專家權(quán)重使用各自獨立的 HSDP 布局:非專家權(quán)重相對較小,其 FSDP 組可以保持較窄的范圍,通常在一個節(jié)點或機(jī)架內(nèi);而專家權(quán)重承載了絕大部分參數(shù)和大部分 Muon 計算量,因此使用更寬的專家分片網(wǎng)格。

保持這些布局獨立還能讓獨立的并行維度得以重疊:例如 CP=2 和 EP=8 可以在 8 塊 GPU 上運行,而不需要在單一共享網(wǎng)格中占用 16 塊。這樣既避免了小型非專家狀態(tài)的大范圍通信,又將專家優(yōu)化器的計算工作分?jǐn)偟礁?GPU 上。

Composer 2.5 定價

Composer 2.5 定價為每百萬輸入 token 0.50 美元每百萬輸出 token 2.50 美元

另有一個速度更快、智能水平相同的變體,定價為每百萬輸入 token 3.00 美元,每百萬輸出 token 15.00 美元,比其他前沿模型的快速版更便宜。

博客地址:https://cursor.com/blog/composer-2-5

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
湖人9人將離隊?6隊在追詹姆斯!東契奇湖人密謀大操作!刺激!

湖人9人將離隊?6隊在追詹姆斯!東契奇湖人密謀大操作!刺激!

貴圈真亂
2026-05-19 10:39:30
連續(xù)5個“20CM”跌停!股東出逃無門,高盛也被困?

連續(xù)5個“20CM”跌停!股東出逃無門,高盛也被困?

新浪財經(jīng)
2026-05-18 22:43:16
上海交大女生私吞競賽獎金,AI造假露餡!校方重磅處分來了

上海交大女生私吞競賽獎金,AI造假露餡!校方重磅處分來了

行者聊官
2026-05-18 19:14:47
腦梗與洗頭有關(guān)?提醒:中老年人,洗頭一定謹(jǐn)記“6要點”

腦梗與洗頭有關(guān)?提醒:中老年人,洗頭一定謹(jǐn)記“6要點”

芹姐說生活
2026-05-18 19:53:50
不打了!馬刺核心無緣西決G1!雷霆二當(dāng)家宣布復(fù)出

不打了!馬刺核心無緣西決G1!雷霆二當(dāng)家宣布復(fù)出

籃球教學(xué)論壇
2026-05-19 09:07:58
羅馬諾實錘!穆里尼奧皇馬首簽來了!王牌中場加盟板上釘釘

羅馬諾實錘!穆里尼奧皇馬首簽來了!王牌中場加盟板上釘釘

奶蓋熊本熊
2026-05-19 04:36:24
判決書甩臉上,姚晨刪博,汪涵裝死,這部電影把網(wǎng)友徹底惹毛了

判決書甩臉上,姚晨刪博,汪涵裝死,這部電影把網(wǎng)友徹底惹毛了

魔都姐姐雜談
2026-05-19 08:17:59
王傳福的臨門一腳,把李斌送上了神壇!

王傳福的臨門一腳,把李斌送上了神壇!

少數(shù)派報告Report
2026-05-18 13:35:19
演員王寧:這輩子我做的最錯誤決定,就是眼紅沈騰,離開開心麻花

演員王寧:這輩子我做的最錯誤決定,就是眼紅沈騰,離開開心麻花

草莓信箱
2026-05-18 22:24:19
后車失控 女車主用自己車死死頂住!東風(fēng)日產(chǎn)贈車主一輛N6新車

后車失控 女車主用自己車死死頂住!東風(fēng)日產(chǎn)贈車主一輛N6新車

快科技
2026-05-17 09:56:09
心痛!益陽網(wǎng)紅周蕾去世,凌晨酒店猝死,長得漂亮,更多細(xì)節(jié)曝光

心痛!益陽網(wǎng)紅周蕾去世,凌晨酒店猝死,長得漂亮,更多細(xì)節(jié)曝光

小鋭有話說
2026-05-18 10:18:06
多名院士調(diào)查發(fā)現(xiàn):吃一口久凍豬肉,就等于服一次毒?真假

多名院士調(diào)查發(fā)現(xiàn):吃一口久凍豬肉,就等于服一次毒?真假

岐黃傳人孫大夫
2026-05-18 21:25:03
深圳球迷意難平!不止因為85-92不敵廣廈,更多在于以下這五點!

深圳球迷意難平!不止因為85-92不敵廣廈,更多在于以下這五點!

田先生籃球
2026-05-18 22:18:19
楊振寧離世不滿一年,翁帆卸下偽裝真實底牌曝光

楊振寧離世不滿一年,翁帆卸下偽裝真實底牌曝光

深海的秘密
2026-05-19 06:11:42
不能二次加熱的6種食物!醫(yī)生提醒:吃不完或倒掉,別亂節(jié)儉

不能二次加熱的6種食物!醫(yī)生提醒:吃不完或倒掉,別亂節(jié)儉

冷眼看世界728
2026-05-12 20:46:26
尼得科將撤出在華合資業(yè)務(wù)

尼得科將撤出在華合資業(yè)務(wù)

新浪財經(jīng)
2026-05-19 05:38:44
廣西車輛墜河6人遇難

廣西車輛墜河6人遇難

界面新聞
2026-05-19 10:25:03
45歲的單身堂叔中了彩票后,竟找到了真愛,娶了一個20多歲的老婆

45歲的單身堂叔中了彩票后,竟找到了真愛,娶了一個20多歲的老婆

地球第一個元嬰大能
2026-05-05 09:39:28
拒絕承諾是否對臺灣軍售,不想看到“任何人走向獨立”,美總統(tǒng)涉臺“四不”示警“臺獨”

拒絕承諾是否對臺灣軍售,不想看到“任何人走向獨立”,美總統(tǒng)涉臺“四不”示警“臺獨”

環(huán)球網(wǎng)資訊
2026-05-18 06:46:12
金庸:大兒子自縊,二兒子入獄,大女兒失聰,唯有小女兒命好一點

金庸:大兒子自縊,二兒子入獄,大女兒失聰,唯有小女兒命好一點

飄飄然的娛樂匯
2026-05-18 20:15:08
2026-05-19 11:08:49
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
13028文章數(shù) 142651關(guān)注度
往期回顧 全部

科技要聞

蘋果WWDC26定檔6月9日凌晨:iOS27將亮相

頭條要聞

夏奇拉再為世界杯獻(xiàn)唱 曾用一瓶果醬抓到球星男友出軌

頭條要聞

夏奇拉再為世界杯獻(xiàn)唱 曾用一瓶果醬抓到球星男友出軌

體育要聞

58順位的保羅,最強(qiáng)第三中鋒

娛樂要聞

張雪峰42歲冥誕,學(xué)生家長自發(fā)緬懷

財經(jīng)要聞

從賣流量到賣Token,運營商算力生意破局

汽車要聞

40.98萬起!充電5分鐘純電續(xù)航420km 騰勢N9閃充版勝算有多少?

態(tài)度原創(chuàng)

家居
藝術(shù)
本地
旅游
公開課

家居要聞

觀山隱秀 心靈沉淀

藝術(shù)要聞

蔣萬安手寫賀卡成焦點!網(wǎng)友:字軟人弱!練書法3年,該如何提高

本地新聞

用蘇繡的方式,打開江西婺源

旅游要聞

解碼“沂蒙泉鄉(xiāng)”共富密碼,沂南銅井鎮(zhèn)繪就文旅高質(zhì)量發(fā)展新畫卷

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版