无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Cursor新模型,你怎么還在套Kimi?馬斯克你怎么還吆喝上了??

0
分享至

Cursor模型更新,最新版本已來到Composer 2.5

稍微一翻Cursor公告,兩件事挺有意思:

一是Cursor這回學老實了,新模型“套”了Kimi不再藏著掖著,連具體用了多少都標的清清楚楚

(Cursor:Kimi打底,自家額外訓練+RL占了85%的總算力)



二是馬斯克原地上演變臉,之前Cursor陷入“套殼風波”時他在旁邊煽風點火,現(xiàn)在卻十分賣力地幫忙站臺

都給我去用Cursor新模型。

網(wǎng)友:老馬你讓我感到陌生(doge)。





別想多了,其實這是因為Cursor和馬斯克達成了算力合作——

Composer 2.5部分訓練是在Colossus 2上完成的,以及Cursor正在和SpaceXAI合作,從零開始訓練一個規(guī)模明顯更大的模型。



好好好,新模型剛來,下一代模型的“餅”又吃上了,看來Cursor真是鉚足了勁想搞自研(具體原因下文詳聊)。

不過遠的咱是夠不著了,先看眼前這個實在的——Composer 2.5本身亮點也很足。

1/10成本、Opus 4.7級表現(xiàn),而且發(fā)布后首周還給你雙倍用量

好家伙,這幾個詞一甩出來,經(jīng)常用模型的朋友誰不沸騰了。

但問題是,Cursor新模型真有這么頂嗎??

1/10成本、Opus 4.7級表現(xiàn)

頂不頂目前咱不好說,反正測評成績挺亮眼。

據(jù)Cursor介紹,“它更擅長在長時間運行的任務中持續(xù)工作,更可靠地遵循復雜指令,協(xié)作體驗也更加順暢”

這些表現(xiàn)反映到具體數(shù)字上就是,其性能水平整體接近Claude Opus 4.7。

  • Terminal-Bench 2.0(終端/命令行任務):69.3% VS 69.4%,幾乎持平;
  • SWE-Bench Multilingual(多語言工程問題):79.8% VS 80.5%,差距微弱;
  • CursorBench v3.1(高難度編程任務):63.2% VS 最高配64.8%,差距微弱。



能和Opus 4.7相提并論,常用模型的人都知道這里頭的含金量了。



而且除了在更高難度的任務上訓練之外,他們還改進了模型在溝通風格和投入級別校準(什么時候該出多大力)等行為層面的表現(xiàn)。

聽起來有點抽象,但Cursor表示:

這些維度很難通過現(xiàn)有基準充分反映,但我們發(fā)現(xiàn),它們對實際使用效果非常重要。

那么,Composer 2.5真實能力如何呢?

鑒于目前Cursor免費用戶只能體驗Auto模式(雖然上架了但是選不了),所以咱先看一波網(wǎng)友的反饋。

先插一嘴,Composer模型速度是真快啊,甭管是哪一個版本,用起來歘歘歘的。



OK,回歸正題。

目前一圈扒下來,感覺Composer 2.5反饋還不錯??

Snapchat前機器學習工程師激情發(fā)帖稱,自從Composer 2發(fā)布后,她就把絕大多數(shù)開發(fā)工作搬到了Cursor上面。

而且還甩出了一句頗有暴論味道的話:

如果你在使用AI進行開發(fā),卻仍然默認使用成本最高的模型來完成每一項任務,那么你80%的工作都是在浪費錢



圖像生成初創(chuàng)公司LetzAI的CEO也有類似感受,他在體驗新模型幾小時后表示:

以前可能會對AI的方案挑三揀四、反復修改,但這次因為Composer 2.5做得太好太快,自己直接“躺平認了”。

沒什么可挑剔的,就這么辦吧。



想必你也發(fā)現(xiàn)了,除了模型能力之外,他們提到了另一個重要關鍵詞:價格

Composer 2.5的價格為每百萬輸入token 0.50美元、每百萬輸出token 2.50美元。

此外,還有一個智能水平相同但速度更快的變體,價格為每百萬輸入token 3.00美元、每百萬輸出token 15.00美元。

p.s. 與Composer 2一樣,fast是默認選項。

這個價格怎么說呢?也就是Opus 4.7的1/10吧。



1/10成本、Opus 4.7級表現(xiàn),如果效果真如測評和網(wǎng)友所言,那絕對是真香了。

Kimi打底,還做了這些訓練改進

那么Composer 2.5這次是如何實現(xiàn)性能“飛躍”(至少是表面上)的呢?

雖說是有Kimi打底,但好歹貼的是“Cursor自研模型”的標簽,這背后多多少少總得有自研吧。

Cursor:別說我還真有。



回到模型本身,Cursor這回在訓練棧上做了不少改進,主要圍繞兩個方向:

模型智能易用性

具體則有三點:

第一,給RL訓練加了“定向反饋”

以前RL獎勵是基于整條軌跡算的,rollout動輒幾十萬token,模型很難知道自己究竟是哪一步搞砸了——最終獎勵只能告訴你“出問題了”,但具體錯哪兒,信號噪聲特別大。

Cursor的解法是:哪里不對就在哪里直接喂反饋

舉個例子,模型在某一輪調(diào)用了一個不存在的工具,收到報錯后繼續(xù)干別的。幾百次調(diào)用里就這一次錯,對最終獎勵基本沒影響。

但Cursor會在出錯那一輪的上下文里插一句“Reminder: Available tools…”并附上可用工具列表,由此得到一個新的“教師”概率分布。

如此一來,錯誤工具的概率被壓下去,有效替代項的概率被抬上來,然后讓學生模型向這個分布靠攏就行。

這套方法在Composer 2.5里被用在了多種行為上,從編碼風格到溝通方式都有。



第二,合成數(shù)據(jù)規(guī)模翻了25倍

RL訓練幾輪下來,Composer已經(jīng)能解決大部分訓練題了,怎么繼續(xù)提升?

答案是動態(tài)生成更難的任務

其中一個玩法叫“功能刪除”——給智能體一個帶測試的代碼庫,讓它刪掉某個特定功能但保證代碼庫還能跑,然后任務就是把這個功能重新實現(xiàn)出來,測試就是獎勵信號。

不過任務一多,獎勵作弊也跟著來了。

Cursor發(fā)現(xiàn)Composer 2.5會整一些離譜操作,比如逆向Python類型檢查緩存找出被刪的函數(shù)簽名,甚至反編譯Java字節(jié)碼重建第三方API。

好在都被監(jiān)控工具抓到了,但也算提了個醒——大規(guī)模RL得更小心。



第三,底層訓練做了優(yōu)化

Cursor用的是帶分布式正交化的Muon,并把通信做成異步——一個任務等通信時,優(yōu)化器接著推進其他任務,讓網(wǎng)絡和計算重疊起來。

最終在1T模型上,優(yōu)化器每步只要0.2秒

另外針對MoE模型,他們把非專家權重和專家權重的HSDP布局拆開了:非專家權重小,F(xiàn)SDP組就窄一點,單節(jié)點內(nèi)搞定;專家權重大,就用更寬的分片網(wǎng)格。

這樣彼此獨立的并行維度也能重疊,比如CP=2和EP=8可以在8個GPU上跑,而不用占16個。

總之,從訓練信號到數(shù)據(jù)規(guī)模再到底層并行,Cursor這次是全棧都動了一遍。

One More Thing

Cursor為啥這么拼搞自研?其實從它和Anthropic的微妙關系里就能管中窺豹。

剛好最近看了姚順宇(不是騰訊那個)做客張小珺播客的那期節(jié)目,這位Anthropic前員工的觀察,正好能說明問題:

Cursor最早是踩著Claude的肩膀火起來的。開發(fā)者社區(qū)里口口相傳的好用,背后很大一部分功勞來自Claude模型本身。那段時間Cursor和Anthropic是典型的“魚水關系”,一個出模型一個出產(chǎn)品,各賺各的錢。

但Claude Code一出來,畫風就變了。

Anthropic自己下場做編程產(chǎn)品,等于直接殺進了Cursor的腹地。原本的“上游供應商”瞬間變成了“正面對手”,再繼續(xù)把身家性命押在對方的API上,顯然不是個安全的選擇。

所以Cursor走上自研這條路,與其說是想成為下一個Anthropic,不如說是被推著不得不走——

模型握在自己手里,命才在自己手里

說到這里我很好奇一個問題:在自研模型成功之前,Cursor現(xiàn)在的模式難道真的不具有護城河嗎?

至少對我這種非專業(yè)開發(fā)者而言,聽起來好像Cursor還不錯——有多款前沿模型可選,價格還更便宜。

帶著好奇,我看到X上有人給出了一種解讀,挺有意思:

Cursor的護城河從來都不是基礎模型,而是RL訓練流程+開發(fā)者工作流數(shù)據(jù)。現(xiàn)在他們正在證明:只要經(jīng)過足夠的微調(diào),開源基礎模型在特定任務上也能與前沿模型相媲美。



仔細想想這話也不算太夸張。

Composer 2.5的訓練里,85%的算力都花在了Kimi基模之外的后訓練和RL上——Kimi K2.5只是個起點,真正讓它在編程任務上能打的,是Cursor自己那套圍繞真實IDE場景做出來的訓練管線。

這個打法也解釋了為啥它能把價格壓到Opus的十分之一。因為,開源基模省掉了從零預訓練那筆最貴的錢,剩下的全砸在編程這一件事上做精細化訓練。

模型只為Cursor的IDE場景服務,沒必要為通用能力買單。

至于為啥這次牽手的是馬斯克的SpaceXAI(畢竟老馬上次表現(xiàn)得并不友好),邏輯貌似也不復雜。

OpenAI有Codex、Anthropic有Claude Code、Google有Gemini Code Assist,這幾家自己都在做編程產(chǎn)品,跟Cursor都是潛在對手,算力上指望不上。

剩下能拿出世界級算力集群、又不跟Cursor在編程賽道正面沖突的玩家,掰著指頭數(shù)也沒幾個了——

老馬的Colossus 2剛好是現(xiàn)成的。



而且如果把時間線拉長看,你會發(fā)現(xiàn)馬斯克和Cursor之間,已經(jīng)遠不只是單純的“算力合作”。

今年3月,xAI內(nèi)部動蕩之際,馬斯克先從Cursor挖走了兩位核心工程負責人。

緊接著4月,更大的動作來了。SpaceX宣布與Cursor達成合作,由Colossus超算為Cursor訓練模型。

但真正關鍵的不是算力,而是協(xié)議本身。

按照網(wǎng)上披露的條款,SpaceX獲得了未來以600億美元收購Cursor的優(yōu)先權。即便最終不收購,Cursor也需要支付100億美元“合作費”。

耐人尋味的是,據(jù)TechCrunch披露,這份協(xié)議官宣前幾小時,Cursor原本正要敲定一輪20億美元、估值500億的融資,參投方包括a16z、英偉達、Thrive等一線機構。

結(jié)果老馬一腳插進來,把這單給截胡了。

所以某種程度上而言,這其實是一次非常典型的“馬斯克式綁定”

要么賣給我,要么給我100億,不管怎樣先提前把Cursor的命運鎖進了自己的版圖。

至于他前腳煽風點火、后腳賣力站臺的變臉速度嘛——硅谷的故事,向來如此。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
陳數(shù)首談14年婚姻,盲目聽從丈夫安排,身患重病后現(xiàn)狀如何?

陳數(shù)首談14年婚姻,盲目聽從丈夫安排,身患重病后現(xiàn)狀如何?

瑛派兒老黃
2026-05-30 20:23:51
毒性堪比砒霜!正大量上市,一旦發(fā)苦趕緊吐掉!醫(yī)生:煮熟也有毒

毒性堪比砒霜!正大量上市,一旦發(fā)苦趕緊吐掉!醫(yī)生:煮熟也有毒

路醫(yī)生健康科普
2026-05-30 20:15:03
女子車禍住院遭男醫(yī)生侵犯后續(xù),細節(jié)不堪入目,院方最新回應來了

女子車禍住院遭男醫(yī)生侵犯后續(xù),細節(jié)不堪入目,院方最新回應來了

可愛的巴比龍
2026-05-30 10:07:23
重磅消息!開始放水了?

重磅消息!開始放水了?

混知房產(chǎn)
2026-05-30 07:36:26
06年男子打工借宿同學家,被同學母親一眼看中,意外改變了他一生

06年男子打工借宿同學家,被同學母親一眼看中,意外改變了他一生

小月文史
2025-03-11 18:44:56
日本全境調(diào)兵直逼臺海,連夜轉(zhuǎn)移12萬居民,表面避難實則清空戰(zhàn)場

日本全境調(diào)兵直逼臺海,連夜轉(zhuǎn)移12萬居民,表面避難實則清空戰(zhàn)場

紀中百大事
2026-05-31 09:36:03
韓國邁出關鍵一步:正式啟動核潛艇計劃!旁邊的日本怕要坐不住了

韓國邁出關鍵一步:正式啟動核潛艇計劃!旁邊的日本怕要坐不住了

老誡科普
2026-05-29 22:13:52
中國沒給面子,普京回國后沉默一周認清現(xiàn)實,終究找上哈薩克斯坦

中國沒給面子,普京回國后沉默一周認清現(xiàn)實,終究找上哈薩克斯坦

小陸搞笑日常
2026-05-31 04:35:20
杭州一大樓半年外賣被偷126次,民警用了這一招,一個月來再也沒丟過

杭州一大樓半年外賣被偷126次,民警用了這一招,一個月來再也沒丟過

都市快報橙柿互動
2026-05-30 17:40:21
張雪變于東來“迷弟”,直播間里豪刷3萬元成“榜一大哥”,直言:我可能成為不了您,但有信心做到您的一半

張雪變于東來“迷弟”,直播間里豪刷3萬元成“榜一大哥”,直言:我可能成為不了您,但有信心做到您的一半

極目新聞
2026-05-30 10:33:33
烏克蘭拆解“榛樹”導彈,結(jié)果震驚西方,七十年代古董為何能破盾

烏克蘭拆解“榛樹”導彈,結(jié)果震驚西方,七十年代古董為何能破盾

通鑒史智
2026-05-31 10:01:04
比亞迪吹爆璇璣A3:完全自研、中國最強!評論區(qū)一點面子都不給

比亞迪吹爆璇璣A3:完全自研、中國最強!評論區(qū)一點面子都不給

譚談社會
2026-05-29 16:29:54
英國公布的圓明園被毀前照片,美如仙境,引發(fā)世界關注

英國公布的圓明園被毀前照片,美如仙境,引發(fā)世界關注

賤議你讀史
2026-05-23 15:23:34
被人事開除后,我誰也沒告訴,董事長得知后卻:誰把我妹辭了?

被人事開除后,我誰也沒告訴,董事長得知后卻:誰把我妹辭了?

麥子情感故事
2026-05-30 17:09:16
5月31日,人社部2026年養(yǎng)老金調(diào)整公布了嗎?高于6000元不漲了嗎

5月31日,人社部2026年養(yǎng)老金調(diào)整公布了嗎?高于6000元不漲了嗎

社保小達人
2026-05-31 09:49:47
從1-2至3-2!北京國安絕境大逆轉(zhuǎn),法比奧創(chuàng)紀錄,重慶3分鐘丟2球

從1-2至3-2!北京國安絕境大逆轉(zhuǎn),法比奧創(chuàng)紀錄,重慶3分鐘丟2球

汪星人喲
2026-05-30 22:02:12
固態(tài)電池神話破滅在即?中科院重大突破將改寫2026電池江湖

固態(tài)電池神話破滅在即?中科院重大突破將改寫2026電池江湖

徐云流浪中國
2026-05-30 18:37:49
極端高溫下,莫迪勸印度人多喝水,印度人破防大罵:我們沒水喝!

極端高溫下,莫迪勸印度人多喝水,印度人破防大罵:我們沒水喝!

觀史搜尋著
2026-05-30 11:57:25
現(xiàn)任孩子沒拿到繼承權,前妻姐真是贏麻了!

現(xiàn)任孩子沒拿到繼承權,前妻姐真是贏麻了!

BenSir本色說
2026-05-30 22:02:27
18歲翻墻離家從軍,父親:我就當你死了!23年后一封急信讓他淚崩

18歲翻墻離家從軍,父親:我就當你死了!23年后一封急信讓他淚崩

磊子講史
2026-05-26 11:55:22
2026-05-31 10:47:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
12710文章數(shù) 176474關注度
往期回顧 全部

科技要聞

戴爾諾基亞又回來了!AI重估老牌科技公司

頭條要聞

稻城亞丁景區(qū)是否有權在省道上"設卡" 央媒調(diào)查

頭條要聞

稻城亞丁景區(qū)是否有權在省道上"設卡" 央媒調(diào)查

體育要聞

巴黎再度捧起歐冠獎杯 槍手眾將黯然神傷

娛樂要聞

賈玲最新動作!侯明昊給虞書欣抬轎!

財經(jīng)要聞

字節(jié)跳動的 "一盤大棋"

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態(tài)度原創(chuàng)

藝術
親子
時尚
旅游
手機

藝術要聞

溥儀致斯大林留蘇申請書小楷精妙,白蕉被神化原因探析

親子要聞

人能自私到什么地步?網(wǎng)友:把寶寶退燒藥喝了,說孩子可以再生

伊姐周六熱推:電視劇《樊籠》;電視劇《翹楚》......

旅游要聞

重磅劇透!300+海外旅行商齊聚北京,新體驗帶動新消費!——2026北京入境旅游發(fā)展大會6月1日高能啟幕,五大板塊搶先看!

手機要聞

nova十周年大作!華為nova 16系列下周亮相:頂流代言+麒麟9系芯片

無障礙瀏覽 進入關懷版