一個(gè)會(huì)持續(xù)學(xué)習(xí)的先進(jìn) Agent 模型,到底該怎么構(gòu)建?
在大模型智能上限一路被推高時(shí),「持續(xù)學(xué)習(xí)」的最佳答案還是沒(méi)有出現(xiàn)。
近日,Mindverse(心洲科技)完成由美團(tuán)領(lǐng)投的 A 輪融資,元禾璞華、韶音、變量資本和老股東追加跟投,總?cè)谫Y額近 5000 萬(wàn)美元。2024 年,真格基金自其創(chuàng)立之初便成為首輪投資方,一路陪伴至今。
「真正的 Agent 能力并非來(lái)自精巧的提示詞拼湊,而是源自后訓(xùn)練。」Mindverse 是少數(shù)把賭注押在模型「內(nèi)部」的一家創(chuàng)企,它在通用大模型的基礎(chǔ)上,用強(qiáng)化學(xué)習(xí)讓它從復(fù)雜、多步驟的真實(shí)任務(wù)中學(xué)會(huì)如何把事做成,讓模型從「知道很多」變?yōu)椤改苻k好事」。
而實(shí)現(xiàn)持續(xù)進(jìn)化的關(guān)鍵在于 LoRA 技術(shù),它就像給一個(gè)強(qiáng)大的共享大腦掛上無(wú)數(shù)輕量的「技能包」,每個(gè)技能包只占極小參數(shù),卻能獨(dú)立更新、彼此隔離,讓模型以極低成本不斷積累屬于特定用戶或場(chǎng)景的記憶與能力,而不是每次從頭重訓(xùn)。
三年前,當(dāng)整個(gè)行業(yè)的目光還盯在預(yù)訓(xùn)練上,Mindverse 的創(chuàng)始人 Andrew 就在一篇和姚順雨合作的論文里寫(xiě)下了一個(gè)幾乎沒(méi)人認(rèn)同的判斷:
Agent 的能力,最終要回到模型訓(xùn)練本身,而不是靠 prompt 和框架拼出來(lái)。
![]()
早期 Mindverse(心洲科技)內(nèi)部研討會(huì)議
三年過(guò)去,當(dāng)行業(yè)注意力從預(yù)訓(xùn)練涌向后訓(xùn)練,這家公司發(fā)現(xiàn),自己一直默默走的那條路,已經(jīng)站到了潮水的正中央。很快他們將開(kāi)源自己訓(xùn)練的 750B agent 模型,這也會(huì)成為全球第一個(gè)在 GLM 5.1 上完成強(qiáng)化學(xué)習(xí)后訓(xùn)練的成果。
看準(zhǔn)這件事很早,公司團(tuán)隊(duì)卻不大。Mindverse 核心研發(fā)約 20 人,成員來(lái)自 DeepSeek、字節(jié) Seed、xAI,也有清華、MIT、杜克的背景,累計(jì)發(fā)表過(guò) 200 多篇頂會(huì)論文。
兩位創(chuàng)始人陳鍇杰、Andrew 從 2018 年就一起休學(xué)創(chuàng)業(yè),做過(guò)機(jī)器人、辦過(guò)實(shí)驗(yàn)室,又各自回到學(xué)校,2023 年再次走到一起。Andrew 抓住了從 agent 訓(xùn)練到先進(jìn) agent model 的技術(shù)范式,首席科學(xué)家馬驍騰帶來(lái)了十年的強(qiáng)化學(xué)習(xí)積累,而陳鍇杰則主要關(guān)注業(yè)務(wù)模型的應(yīng)用和用戶價(jià)值判斷。
在和陳鍇杰這場(chǎng)對(duì)話里,我們想弄清楚的是:如何用后訓(xùn)練的方式,訓(xùn)練出一個(gè)便宜、好用、還能持續(xù)成長(zhǎng)的模型?
![]()
模型變強(qiáng)的下半場(chǎng),在后訓(xùn)練
Q:這一兩年,行業(yè)的注意力肉眼可見(jiàn)地從預(yù)訓(xùn)練轉(zhuǎn)向后訓(xùn)練。后訓(xùn)練這件事,是什么時(shí)候真正變重要的?
陳鍇杰:今天預(yù)訓(xùn)練和后訓(xùn)練的邊界已經(jīng)越來(lái)越模糊,預(yù)訓(xùn)練階段也會(huì)混入大量 Agent 軌跡數(shù)據(jù)。但大體上仍然可以這樣區(qū)分:預(yù)訓(xùn)練主要利用互聯(lián)網(wǎng)數(shù)據(jù)建立對(duì)世界的基本認(rèn)知,后訓(xùn)練則把這些認(rèn)知轉(zhuǎn)化成具體能力。
真正的分水嶺大概出現(xiàn)在 DeepSeek 發(fā)布 R1 的時(shí)候。那是行業(yè)第一次看到強(qiáng)化學(xué)習(xí)能夠系統(tǒng)性地推動(dòng)大模型能力提升,也是后訓(xùn)練地位快速上升的開(kāi)始。在那之前,后訓(xùn)練消耗的算力可能只占預(yù)訓(xùn)練的 3% 到 5%,現(xiàn)在絕大部分模型能力的進(jìn)步都發(fā)生在后訓(xùn)練階段。
一個(gè)重要原因是,行業(yè)開(kāi)始積累此前互聯(lián)網(wǎng)中不存在的數(shù)據(jù)。Claude Code 這樣的產(chǎn)品里大量真實(shí)任務(wù)產(chǎn)生的 Agent 軌跡開(kāi)始被沉淀下來(lái),成為推動(dòng)后訓(xùn)練持續(xù)演進(jìn)的重要基礎(chǔ)。
Q:后訓(xùn)練真正解決的,到底是模型的什么?是能力,是對(duì)齊,還是讓它「學(xué)會(huì)做事」?
陳鍇杰:是在「對(duì)世界的基本認(rèn)知」這個(gè)底子之上,去增強(qiáng)它在真實(shí)任務(wù)里的能力。預(yù)訓(xùn)練給了它知識(shí)和世界觀,但一個(gè)知道很多事的人,不等于一個(gè)能把事做成的人——后訓(xùn)練補(bǔ)的就是后面這半截:怎么在真實(shí)任務(wù)里把已有的認(rèn)知用起來(lái)、用對(duì)。
而且這件事還有一個(gè)更未來(lái)的形態(tài),叫持續(xù)學(xué)習(xí)(continual learning)。我們想做的是有一種訓(xùn)練模型的方法,能讓模型用很低的成本不斷演化、進(jìn)化,學(xué)習(xí)新的知識(shí)、做新的任務(wù),也遺忘那些不需要的知識(shí)和任務(wù),讓效果以一種漸進(jìn)的方式提升。它不是訓(xùn)練完就定型,而是一邊在真實(shí)場(chǎng)景里運(yùn)行、一邊持續(xù)地更新自己。
Q:你們認(rèn)定要靠訓(xùn)練去解決這件事,其實(shí)下手很早。2023 年那篇 FireAct 就提出「agent 能力來(lái)自訓(xùn)練、而不是 prompt」,當(dāng)時(shí)還是個(gè)非共識(shí)。為什么你們敢這么早押注?
陳鍇杰:這個(gè)判斷和我離開(kāi)學(xué)校后的第二次創(chuàng)業(yè)經(jīng)歷有關(guān)。當(dāng)時(shí)我們?cè)谧?AI 游戲,用的是 GPT-2、GPT-3 時(shí)代的模型。能力很有限,但已經(jīng)需要構(gòu)建一個(gè)會(huì)隨著用戶行為不斷變化的 AI 世界,本質(zhì)上是在搭建復(fù)雜工作流。
那兩年我們很清楚地看到一個(gè)問(wèn)題。單個(gè)步驟成功率達(dá)到 95%,看起來(lái)已經(jīng)很高,但當(dāng)十幾個(gè)步驟串聯(lián)在一起時(shí),誤差會(huì)不斷累積,最終破壞整個(gè)體驗(yàn)。長(zhǎng)程任務(wù)不可能只依賴 Prompt 拼接完成,能力最終必須通過(guò)訓(xùn)練獲得。今天大家常說(shuō)的 trajectory,本質(zhì)上就是一條連續(xù)的思考與行動(dòng)軌跡。
后來(lái)姚順雨提出 ReAct,把思考和行動(dòng)組織成一條連續(xù)軌跡。我們看到這件事的時(shí)候,其實(shí)非常有共鳴。也是從那個(gè)時(shí)候開(kāi)始,我們?cè)絹?lái)越確信,Agent 能力最終會(huì)回到訓(xùn)練本身。Andrew 和他一起發(fā)完 FireAct 那篇論文之后,我們也決定沿著這條路線繼續(xù)往前走,成立公司,把這件事做下去。
Q:這條路繞不開(kāi) LoRA。但大部分人對(duì) LoRA 的印象還停在「給圖片加個(gè)濾鏡」。在你們這兒它顯然不是這個(gè)角色,該怎么重新理解它,它和強(qiáng)化學(xué)習(xí)又是什么關(guān)系?
陳鍇杰:我們最初選 LoRA 是個(gè)很現(xiàn)實(shí)的考慮,因?yàn)樗且粋€(gè)極致性價(jià)比的訓(xùn)練方法。
你可以把它理解成一個(gè)自適應(yīng)的適配器:它不去動(dòng)整個(gè)模型,而是把模型里最關(guān)鍵的那部分參數(shù)提煉出來(lái)訓(xùn)練,用很少的參數(shù)就能擬合整個(gè)模型的訓(xùn)練效果。因?yàn)槲覀冏钤缰挥袔资ā⒁话倏ǖ募海艿竭@個(gè)限制我們必須把每一分算力的效率榨到極致。
但今天 LoRA 演變成了構(gòu)建持續(xù)學(xué)習(xí)的技術(shù)底座,它負(fù)責(zé)讓模型的能力能夠不斷地被承載、被更新。
LoRA 和強(qiáng)化學(xué)習(xí)是分工的兩件事。強(qiáng)化學(xué)習(xí)是后訓(xùn)練里最主要的方法,負(fù)責(zé)把模型的能力真正練出來(lái)。在萬(wàn)億參數(shù)這個(gè)規(guī)模下,強(qiáng)化學(xué)習(xí)和 LoRA 的適配兩件事情都很困難,但都繞不開(kāi)。
Q:你們研究真正的轉(zhuǎn)折點(diǎn)是哪一刻?我們注意到一個(gè)挺微妙的細(xì)節(jié),幾乎在同一時(shí)間,硅谷的 Thinking Machines 也在做同一件事。
陳鍇杰:轉(zhuǎn)折在 2025 年 9 月前后。
我們發(fā)現(xiàn)在足夠大的 MoE 模型上用 LoRA 做強(qiáng)化學(xué)習(xí),性能是沒(méi)有損失的。一個(gè)輕量的低秩方法去更新模型,和把整個(gè)模型全參數(shù)更新一遍,效果一樣。這意味著我們能用 1/10 的成本,拿到和全參數(shù)訓(xùn)練一模一樣的結(jié)果。現(xiàn)在它從一個(gè)性能和效率的取舍變成了對(duì)效率的單調(diào)優(yōu)化。
做出這個(gè)結(jié)果時(shí)我們第一反應(yīng)是懷疑自己。直到 Thinking Machines 隨后在 9 月 29 日他們發(fā)了《LoRA Without Regret》,結(jié)論跟我們完全一致。看到他們獨(dú)立印證了同一件事,我們反而踏實(shí)了。
到去年 12 月底,我們完成了萬(wàn)億參數(shù)的 LoRA 強(qiáng)化學(xué)習(xí),和 Thinking Machines 同期發(fā)布。全球那時(shí)能做到的只有我們兩家,今年加上 Fireworks(Cursor Composer 模型的合作伙伴)也就三家。
Q:你說(shuō) LoRA 是「構(gòu)建持續(xù)學(xué)習(xí)的技術(shù)底座」。這句話具體怎么理解?為什么 LoRA 這層?xùn)|西,會(huì)成為模型「持續(xù)學(xué)習(xí)」的關(guān)鍵元器件?
陳鍇杰:它是基模上面的一個(gè)更小的層,比如我們最新要發(fā)的模型,就是基模加上面這個(gè) LoRA 一層,LoRA 這層的參數(shù)量大概是基模的千分之五,有很多個(gè)的話會(huì)更大。因?yàn)檫@一層參數(shù)不多,所以它便宜、好訓(xùn)、可以擴(kuò)展。
舉個(gè)例子,假設(shè)我服務(wù)一個(gè)金融客戶,先把他的股票、市場(chǎng)數(shù)據(jù)訓(xùn)成一個(gè)金融推理模型。過(guò)三個(gè)月,金融市場(chǎng)又發(fā)生很多事、股價(jià)也變了,這些新數(shù)據(jù)怎么辦?
OpenAI、Anthropic 要把這些再訓(xùn)進(jìn)預(yù)訓(xùn)練里,是很貴、很難、動(dòng)起來(lái)成本極大的一件事;但這個(gè)金融客戶,因?yàn)?LoRA 本身夠小,只要繼續(xù)訓(xùn)這個(gè) LoRA、把新數(shù)據(jù)再訓(xùn)進(jìn)去就行。LoRA 的大小也不固定,可以做得很小很小,小到每個(gè)人有一個(gè)、薄薄的一片,用一個(gè)人一個(gè)月的數(shù)據(jù)去訓(xùn),可能就是幾十美金的量級(jí);而最大的、能追平全參數(shù)訓(xùn)練效果的 LoRA,也不過(guò)幾萬(wàn)、幾十萬(wàn)美金。所以它有非常大的可調(diào)節(jié)空間:你企業(yè)數(shù)據(jù)少能訓(xùn),數(shù)據(jù)多也能訓(xùn),想要接近預(yù)訓(xùn)練級(jí)別的大提升、讓它學(xué)會(huì)一門(mén)新的代碼語(yǔ)言,也能訓(xùn)。單個(gè) LoRA 薄、好訓(xùn)、可加、便宜,這就是 LoRA 在持續(xù)學(xué)習(xí)上的第一層意義。
Q:如果不用任何術(shù)語(yǔ),讓一個(gè)普通人聽(tīng)明白,你們到底在做一件什么事?
陳鍇杰:我們?cè)谝粋€(gè)足夠強(qiáng)的大模型底座上,掛很多個(gè)「技能包」,讓一個(gè)模型能同時(shí)變成成千上萬(wàn)個(gè)各有所長(zhǎng)的模型,去服務(wù)不同的人、不同的企業(yè)、不同的場(chǎng)景。
這個(gè)底座就是 base model,提供通用的智能上限;那些「技能包」就是 LoRA,每一個(gè)承載一小塊具體的東西,里面可以是某個(gè)用戶的長(zhǎng)期偏好、某個(gè)企業(yè)的業(yè)務(wù)經(jīng)驗(yàn)、某類任務(wù)的打法。
過(guò)去大家的默認(rèn)做法是「一個(gè)模型服務(wù)所有人」,所有人共用同一套參數(shù)。我們想做的是反過(guò)來(lái),共享同一個(gè)聰明的底座,但每個(gè)人、每個(gè)場(chǎng)景頭上都有一片屬于自己的、還能持續(xù)長(zhǎng)大的參數(shù)。我們把這套結(jié)構(gòu)叫 mixture of LoRA。
Q:mixture of LoRA,這名字會(huì)讓人立刻想到 MoE,大家熟悉的 mixture of experts。這兩個(gè)「mixture」是一回事嗎?
陳鍇杰:有學(xué)習(xí) MoE 的地方,但不一樣。MoE 里單獨(dú)一個(gè) expert 是沒(méi)法完成推理的,它更像是模型內(nèi)部自己分出來(lái)的計(jì)算單元。但 mixture of LoRA 里,每一個(gè) LoRA 都是獨(dú)特的、可以單獨(dú)調(diào)用、對(duì)應(yīng)一塊明確的能力。
舉個(gè)例子,假設(shè)我要做金融任務(wù),我可以一次性掛 10 個(gè) LoRA,一個(gè)學(xué)股價(jià)、一個(gè)學(xué)財(cái)報(bào)、一個(gè)學(xué)風(fēng)控……分頭去學(xué)。哪天我又要加兩個(gè)新任務(wù),比如港股打新的技巧,我完全不用動(dòng)前面那 10 個(gè)已經(jīng)學(xué)好的,直接再加兩個(gè) LoRA 進(jìn)去學(xué)就行,學(xué)完一掛,模型的能力就天然擴(kuò)展了一塊,舊的一點(diǎn)沒(méi)受影響。這就是為什么我們說(shuō)它是一個(gè)「天生適合持續(xù)學(xué)習(xí)」的結(jié)構(gòu)。因?yàn)槠渌械哪芰κ且粔K塊累加上去的,而不是每加一點(diǎn)新東西就得把整個(gè)模型重訓(xùn)一遍、還冒著把舊本事弄丟的風(fēng)險(xiǎn)。這也是 LoRA 的第二層意義,在 mixture of LoRA 的持續(xù)擴(kuò)展上。
我們還在探索的、更遠(yuǎn)的可能,比如說(shuō)讓 LoRA 之間協(xié)商、合作。當(dāng)我們有了 mixture of LoRA 這個(gè)架構(gòu),我們會(huì)關(guān)注不同的 LoRA 之間的協(xié)作,會(huì)不會(huì)因?yàn)槟P偷亩鄻有詭?lái)更好的結(jié)果。
Q:這套結(jié)構(gòu)落到一個(gè)真東西上,就是你們即將要發(fā)的模型?
陳鍇杰:我們很快會(huì)開(kāi)源我們訓(xùn)練的模型,它天生就支持 mixture of LoRA,是一個(gè) 750B 參數(shù)的 Agent 模型,其中是 744B 的預(yù)訓(xùn)練 GLM 5.1 + 6B 的 LoRA。我們應(yīng)該是除了智譜以外,第一個(gè)在 GLM 5.1 上完成強(qiáng)化學(xué)習(xí)后訓(xùn)練的團(tuán)隊(duì)。
在 GLM5.1 上面做 LoRA 強(qiáng)化學(xué)習(xí)是有實(shí)打?qū)嵉墓こ涕T(mén)檻的,需要適配 DSA,DeepSeek Sparse Attention,還有 MTP,Multi Token Prediction。我們這個(gè)模型不是去追「什么都會(huì)」的通用基模,它是專門(mén)面向 agent 場(chǎng)景深度后訓(xùn)練出來(lái)的,主要服務(wù)于生成式 UI 的編碼、生活中的聊天、長(zhǎng)鏈路推理和工具調(diào)用。
Q:新模型你們定義成一個(gè) Agent Model。這個(gè)詞該怎么理解?大家在后訓(xùn)練上的投入,最終都是為了它嗎?
陳鍇杰:最新的前沿模型都是面向 agent 的模型。
拿 Claude 舉例:它出了 Claude Code 之后,模型訓(xùn)練就會(huì)用 Claude Code 的數(shù)據(jù),這些數(shù)據(jù)和我們平常用豆包那樣「問(wèn)一句答一句」完全不同。在 Claude Code 里,你寫(xiě)一段代碼是一個(gè)非常長(zhǎng)的任務(wù),中間有很多交互,是一條很長(zhǎng)鏈路的數(shù)據(jù)。用這些數(shù)據(jù)訓(xùn)練之后,Claude 這個(gè)模型就越來(lái)越「agent native」,越來(lái)越適應(yīng) agent 的架構(gòu),因?yàn)樗緛?lái)就是用這些數(shù)據(jù)訓(xùn)出來(lái)的。所以模型和應(yīng)用場(chǎng)景是相輔相成的,大家都在往這個(gè)方向演進(jìn),進(jìn)度各不相同。
我們做的也是這件事,只不過(guò)場(chǎng)景放在生活上。Macaron 是我們的 agent harness,生活場(chǎng)景里同樣有很多復(fù)雜的工具調(diào)用、代碼執(zhí)行,還有很多模糊的請(qǐng)求,用戶自己也不知道想干什么。我們會(huì)把這些串成一條連續(xù)的任務(wù)鏈路,讓模型在這條鏈路里通過(guò)訓(xùn)練做得更好,去提升 agent 的表現(xiàn)。
當(dāng)我們說(shuō) agent model 時(shí),指的就是:這個(gè)模型訓(xùn)出來(lái),是為了在一個(gè)多輪 agent 環(huán)境里使用的,專門(mén)為這個(gè)環(huán)境做了優(yōu)化。它還是一個(gè)模型,但做了 agent 的訓(xùn)練。
我們很特別的地方在于,市面上幾乎沒(méi)有專門(mén)為 agent 工作流優(yōu)化的模型。國(guó)內(nèi)大批量的開(kāi)源模型,基本還在追趕 GPT 和 Claude 最先進(jìn)的那一代,所以大家的精力很多還在預(yù)訓(xùn)練上,怎么先趕上,可能還顧不上把 agent 這部分在后訓(xùn)練里做得特別好。
Claude 肯定在逐漸做,做得也非常好,但同時(shí)他們要管的課題多很多。我們是專門(mén)為 agent 訓(xùn)練模型,讓它把 agent 任務(wù)做得更好,工具調(diào)用、記憶提取、什么時(shí)候該把任務(wù)交還給用戶、什么時(shí)候繼續(xù)多輪思考,這些它都會(huì)做得更好。
![]()
模型時(shí)代,時(shí)間就是最大的壁壘
Q:大家最初認(rèn)識(shí) Mindverse(心洲科技) 就是從 Macaron 開(kāi)始。你談到 Macaron 不只是個(gè) C 端產(chǎn)品,而是模型的 agent harness。能具體講講,模型和產(chǎn)品到底怎么互相喂養(yǎng)?這和大家常說(shuō)的「拿用戶數(shù)據(jù)訓(xùn)模型」有什么不一樣?
陳鍇杰:我們從一開(kāi)始,就是把模型訓(xùn)練和 C 端應(yīng)用的迭代放在一起看的,它不是「先有模型、再拿產(chǎn)品收集點(diǎn)數(shù)據(jù)」那么簡(jiǎn)單,而是一個(gè)雙向的循環(huán)。
但我們和很多人有個(gè)關(guān)鍵區(qū)別,我們不直接拿用戶的數(shù)據(jù)去訓(xùn)練。生活里的隱私和工作一樣重要,而很多人會(huì)直接拿用戶數(shù)據(jù)訓(xùn)模型。我們的做法是借助用戶的反饋,去理解數(shù)據(jù)里的分布和特點(diǎn),然后造一個(gè)我們自己的模擬環(huán)境,把模型放進(jìn)這個(gè)模擬環(huán)境里訓(xùn)練。我們會(huì)故意往里面加很多噪聲、干擾、極端情況,因?yàn)檎鎸?shí)用戶的表現(xiàn)本來(lái)就非常極端:會(huì)中途打斷、會(huì)改目標(biāo),還會(huì)給到錯(cuò)的、過(guò)時(shí)的信息。模型在這種環(huán)境里練出來(lái),才扛得住現(xiàn)實(shí)里 agent 真正會(huì)遇到的狀況。而且后訓(xùn)練需要的數(shù)據(jù)量其實(shí)很小,幾萬(wàn)條、幾十萬(wàn)條就是一個(gè)很有意義的規(guī)模,它不像預(yù)訓(xùn)練要那么大的量,更關(guān)鍵的是數(shù)據(jù)質(zhì)量要非常高。
反過(guò)來(lái),模型也喂產(chǎn)品。這些訓(xùn)出來(lái)的能力,訓(xùn)完是直接部署回 Macaron 的,產(chǎn)品體驗(yàn)的上限本就由模型能力決定。這和 Anthropic 是同一個(gè)邏輯,Claude 的訓(xùn)練直接服務(wù) Claude Code,Claude Code 里跑出來(lái)的東西又流回去訓(xùn)模型,只不過(guò)我們的場(chǎng)景是生活。
Macaron 對(duì)我們的意義,不是多一個(gè)產(chǎn)品入口,而是給模型提供了一個(gè)真實(shí)、長(zhǎng)期、會(huì)持續(xù)產(chǎn)生反饋的 agent harness 和訓(xùn)練環(huán)境。Macaron 現(xiàn)在有 200 多萬(wàn)用戶、超過(guò) 10 萬(wàn)日活。
Q:你們很看重「生成式 UI」。模型把答案講清楚不就行了,為什么非要它會(huì)「畫(huà)界面」?
陳鍇杰:模型什么都返給你一段文字,其實(shí)不是一種好的表達(dá)方式。
人類天生就是一個(gè)視覺(jué)動(dòng)物,對(duì)圖形的感知要顯著的好于文字。同樣一件事,展示一張圖表,肯定比把這些數(shù)字寫(xiě)成一大段話更清晰——這中間省掉的,是你的認(rèn)知負(fù)擔(dān)。Google 在 IO 大會(huì)上講的 omni 也是這個(gè)意思,模型該用更豐富的形式把結(jié)果交給你,而不是永遠(yuǎn)丟一堆文本讓你自己消化。
在 Google 定義的 A2UI 這個(gè)標(biāo)準(zhǔn)上,SOTA 衡量的就不只是「模型能不能生成 UI」,而是「它生成的這個(gè)界面,幫用戶下降了多少認(rèn)知負(fù)擔(dān)」。在生活場(chǎng)景里這件事尤其關(guān)鍵:你問(wèn)「今天吃什么」,給你彈出幾個(gè)能直接點(diǎn)的選項(xiàng)卡,和給你寫(xiě)三百字,體驗(yàn)完全是兩回事。模型會(huì)不會(huì)「好好說(shuō)話」,在 C 端是直接決定體驗(yàn)的。
Q:你們?cè)谀P蜕厦婀嫉?benchmark 也挺有意思,生活類任務(wù)上拿了 SOTA,但代碼、數(shù)學(xué)這些硬核任務(wù),你們明說(shuō)了只逼近、不追第一。這個(gè)取舍本身是一種表態(tài)吧?
陳鍇杰:這個(gè)選擇本身就說(shuō)明了我們是一家什么樣的公司。
姚順雨在「AI 下半場(chǎng)」里的觀點(diǎn)我們特別認(rèn)同:接下來(lái) benchmark 可能是模型訓(xùn)練里最重要的一環(huán),因?yàn)槟氵x擇什么 benchmark,就是你想讓模型在哪些任務(wù)上變強(qiáng)。
我們挑了四個(gè),Living Bench 是我們自己定義的、Vita Bench 是美團(tuán)出的,這兩個(gè)打的是生活類長(zhǎng)鏈路任務(wù),比如一次旅行規(guī)劃,聽(tīng)著簡(jiǎn)單,真做起來(lái)牽涉的環(huán)節(jié)和個(gè)人偏好特別多;A2UI 是 Google 提出的生成式 UI 標(biāo)準(zhǔn);PinchBench 是海外常用來(lái)刻畫(huà) OpenClaw 這類 agent 任務(wù)表現(xiàn)的榜單。這四個(gè)上我們都做到了 SOTA。
而客服、寫(xiě)代碼、純數(shù)學(xué)這些傳統(tǒng)任務(wù),對(duì)我們也重要,但不是我們最想爭(zhēng)第一的地方,我們會(huì)去逼近開(kāi)源模型的最好水平,但不在這上面爭(zhēng)第一。說(shuō)白了,我們不想做一個(gè)樣樣考第一的通用模型,我們想做一個(gè)在「真實(shí)生活里把復(fù)雜的事辦成」這件事上最好的 agent 模型。
但從另一個(gè)角度來(lái)看,我們整套訓(xùn)練框架是可復(fù)用在多個(gè)場(chǎng)景的。我們通過(guò)這次發(fā)布的首個(gè)模型,本質(zhì)上是驗(yàn)證了「基座大模型+技能包」這條路在復(fù)雜長(zhǎng)鏈路任務(wù)里的有效性。因此,面對(duì)更廣闊的企業(yè)端垂直需求,我們不需要從頭訓(xùn)模型,只需要基于同一個(gè)底座,快速增強(qiáng)出對(duì)應(yīng)場(chǎng)景的專精技能,以極低邊際成本覆蓋新的 Benchmark。
Q:聽(tīng)說(shuō)你們能將模型后訓(xùn)練的成本降低 1/10,且效果保持不變。這 10 倍到底省在哪?這個(gè)事情在萬(wàn)億參數(shù)的模型上去做有什么難的地方?
陳鍇杰:省是因?yàn)槲也挥脼槊總€(gè)用戶、每個(gè)場(chǎng)景都復(fù)制一整個(gè)大模型。
打個(gè)比方,如果要給幾千個(gè)人各部署一個(gè)完整的萬(wàn)億參數(shù)大模型,那等于把同一個(gè)龐然大物原樣復(fù)制幾千份,需要的算力是個(gè)天文數(shù)字,經(jīng)濟(jì)上根本不可能發(fā)生。但在我們的結(jié)構(gòu)里,這幾千個(gè)模型共享同一個(gè)底座,各自只帶一片小小的 LoRA,所需的算力跟部署一個(gè)模型相比幾乎沒(méi)有增加,省掉的,就是那幾千份重復(fù)的底座。
至于為什么「越大越難」,是因?yàn)槔щy不是線性漲上去的,而是一道道工程門(mén)檻。在小模型上掛個(gè) LoRA 沒(méi)什么稀奇,但要在接近萬(wàn)億參數(shù)的超大模型上穩(wěn)定訓(xùn)練、并且把成百上千個(gè) LoRA 同時(shí)部署好,背后是一整套系統(tǒng)工程:算子要重寫(xiě)、顯存怎么管、訓(xùn)練和推理怎么保持一致、幾百萬(wàn)個(gè)技能怎么加載切換、多個(gè)客戶之間怎么隔離……每一項(xiàng)到了這個(gè)尺度都會(huì)變成硬骨頭。
國(guó)內(nèi)目前能在這種尺寸上做 LoRA 訓(xùn)練的,可能就我們一家。我們現(xiàn)在甚至在往極小的方向摳,傳統(tǒng) LoRA 一般用 16 或 32 的 rank,我們?cè)谘芯?rank 等于 1、甚至比 1 還小的算法,因?yàn)楹芏鄠€(gè)性化要存的信息其實(shí)沒(méi)那么多,技能包越小,性價(jià)比越高,能掛的數(shù)量也越多。
Q:數(shù)量是個(gè)關(guān)鍵詞。去年 12 月你們一個(gè)底座上能掛 10 個(gè) LoRA,今年就說(shuō)能到百萬(wàn)級(jí)。這個(gè)跳躍靠什么?而且「模型數(shù)量」聽(tīng)起來(lái)也成了一個(gè)新的 scaling 維度?
陳鍇杰:靠?jī)杉隆?/p>
一是把 LoRA 做得越來(lái)越小,剛才說(shuō)的 rank 做到 1,單個(gè)就更容易承載;二是更好的緩存機(jī)制,以前大家可能是三層緩存,我們多做了一層,加上很多并行處理的方法。也因此,它不是上百萬(wàn)個(gè)同時(shí)激活,而是這上百萬(wàn)個(gè)能以很快的速度激活,大概一秒以內(nèi),一個(gè)請(qǐng)求進(jìn)來(lái)、命中了一個(gè)還沒(méi)激活的 LoRA,也能在一秒內(nèi)響應(yīng)。所以「同一個(gè) batch 只能做幾十個(gè)」其實(shí)不是限制,它取決于資源,你要部署百萬(wàn)個(gè),把卡開(kāi)多一點(diǎn)就行。
而「模型數(shù)量本身成為一個(gè) scaling 維度」,是讓我們很興奮的事。過(guò)去大模型的 scaling 主線是把一個(gè)模型越做越大;agent 時(shí)代多出來(lái)一條線,是把模型的數(shù)量也規(guī)模化。
我們驗(yàn)證過(guò)它是成立的,掛上去的模型越多,整體智能穩(wěn)定往上走,差不多是一個(gè)自然對(duì)數(shù) scale 的線性提升。這對(duì)我們來(lái)說(shuō)也是個(gè)挺震驚的發(fā)現(xiàn)。所以我們可以做到一人一個(gè)、一個(gè)公司一個(gè),或者一個(gè)任務(wù)領(lǐng)域一個(gè)。
Q:你們說(shuō)全球能做這件事的只有三家,可這聽(tīng)起來(lái)更像是「做得早」。如果大廠下定決心、甚至自己造一套 LoRA 后訓(xùn)練架構(gòu),他們做得到嗎?你們真正的護(hù)城河是什么?
陳鍇杰:在大模型這件事上,時(shí)間本身就是壁壘。
你看 OpenAI 和 Anthropic 之間也沒(méi)有壁壘,沒(méi)有誰(shuí)做得了、誰(shuí)做不了,技術(shù)平臺(tái)一樣、人也在流動(dòng)。今天的 AI 是一個(gè)不斷「形成共識(shí)、追共識(shí)、再形成新共識(shí)」的過(guò)程。從有沒(méi)有共識(shí),到強(qiáng)化學(xué)習(xí)、到 O1、R1、再到 agent,大家交替領(lǐng)先。真正的差別是在這種交替里,誰(shuí)先做出來(lái)、誰(shuí)走得更快,誰(shuí)就能率先和用戶、和 toB 客戶形成循環(huán),把價(jià)值鎖定下來(lái)。
但我們也確實(shí)積累了一些別人一時(shí)繞不過(guò)的東西。一個(gè)是真實(shí)的工程沉淀和行業(yè)認(rèn)可,我們?cè)陂_(kāi)源社區(qū)和螞蟻、華為一起構(gòu)建 AReaL-MinT,和字節(jié)、英偉達(dá)一起構(gòu)建 verl-mint,這是國(guó)內(nèi)兩個(gè)最主要的強(qiáng)化學(xué)習(xí)框架,都把我們的 LoRA 技術(shù)整合了進(jìn)去;英偉達(dá)把我們掛在了官網(wǎng)首頁(yè)。這些不是 PR,是大家在底層真的用上。
另一個(gè)是我們看問(wèn)題的起點(diǎn)不一樣,大廠做模型通常從預(yù)訓(xùn)練、從數(shù)據(jù)和基礎(chǔ)設(shè)施往下推,我們是從用戶需求、從真實(shí)產(chǎn)品里跑出來(lái)的問(wèn)題往回推。這個(gè)從產(chǎn)品里長(zhǎng)出來(lái)的洞察,是只在實(shí)驗(yàn)室里訓(xùn)模型的人拿不到的。
Q:這些和大廠的合作具體落在哪一層?順著聊聊錢(qián),你們的商業(yè)化邏輯是什么?既給云廠商做底層、自己又做產(chǎn)品,這中間不會(huì)打架嗎?
陳鍇杰:合作分幾個(gè)層次。
和英偉達(dá)是在開(kāi)源社區(qū)雙向的技術(shù)共建,我們把算子寫(xiě)出來(lái)、一起共建底層平臺(tái);和字節(jié)、螞蟻是在開(kāi)源社區(qū)共建強(qiáng)化學(xué)習(xí)框架,我們既用他們的平臺(tái),也把高效訓(xùn)練的方法貢獻(xiàn)了進(jìn)去。再往上到業(yè)務(wù)層,因?yàn)槲覀冇懈咝У牟l(fā)訓(xùn)練、并發(fā)推理基礎(chǔ)設(shè)施,能幫客戶把訓(xùn)練成本降一個(gè)數(shù)量級(jí)、大概到原來(lái)的 1/10,就和華為云、微軟云、阿里云、火山這樣的客戶形成合作,和華為是很深的戰(zhàn)略合作。
至于會(huì)不會(huì)打架,我們想得比較清楚,不想把自己做成一家純商業(yè)化的公司。如果某個(gè)方向要做成大規(guī)模服務(wù)、需要很大投入,我們更愿意交給華為云、微軟云這些平臺(tái)伙伴去規(guī)模化,自己專注在技術(shù)本身。所以「既服務(wù)云廠商、又自己做產(chǎn)品」不是左右手互搏,而是分工。他們做規(guī)模,我們做上限。C 端主要還是 Macaron,對(duì)今天的我們來(lái)說(shuō),把后端技術(shù)做到足夠好,比急著談收入更重要,技術(shù)真到位了,需求自然會(huì)找上來(lái)。
![]()
「模型記憶不應(yīng)該是記事本,應(yīng)該在參數(shù)里」
Q:當(dāng)一個(gè)底座上掛著成千上萬(wàn)個(gè) LoRA,模型與模型之間,會(huì)開(kāi)始發(fā)生什么新的事情?
陳鍇杰:會(huì)開(kāi)始出現(xiàn)分工和協(xié)作。Andrew 講過(guò)很讓我興奮的一個(gè)類比,他覺(jué)得我們正在讓模型長(zhǎng)出「生物學(xué)」。
在生物出現(xiàn)之前,世界上只有化學(xué),只有原子和分子。從化學(xué)躍遷到生命,最關(guān)鍵的轉(zhuǎn)折點(diǎn)便是細(xì)胞膜。它劃清了內(nèi)外邊界,界定了生命體的本質(zhì)。放到 AI 領(lǐng)域,我們將這種邊界隔離稱作 Isolation。每一個(gè) LoRA 都是獨(dú)立的單元,如同被細(xì)胞膜包裹的個(gè)體。
以前的模型只有「物理和化學(xué)」,拼參數(shù)量、拼數(shù)據(jù)量、拼算力;而當(dāng)你能把模型一個(gè)個(gè)隔離開(kāi)、又讓它們之間高效地交換信息時(shí),就像單細(xì)胞走向多細(xì)胞生命,分工協(xié)作自然形成,遺傳、進(jìn)化亦隨之發(fā)生。AI 的發(fā)展軌跡,正從純粹的化學(xué)層級(jí),跨步走入生物演化的長(zhǎng)河。
Q:但 Isolation 聽(tīng)起來(lái)是個(gè)很「工程」的詞,甚至有點(diǎn)平庸。你為什么把它抬到這么高的位置?
陳鍇杰:恰恰因?yàn)樗雌饋?lái)平庸,才容易被低估。
大家談?dòng)洃浀奈磥?lái),一般會(huì)盯著兩個(gè)很 fancy 的方向,更好的模型結(jié)構(gòu)、更高效的算法。Isolation 排第三,聽(tīng)上去就是個(gè)「把數(shù)據(jù)隔開(kāi)」的臟活。但我前面說(shuō)了,從化學(xué)到生物那一躍,靠的就是細(xì)胞膜這層「隔離」。
而且 Isolation 不只是技術(shù)問(wèn)題,它是這套東西能不能真正進(jìn)入社會(huì)的前提。企業(yè)和企業(yè)之間是有壁壘的,一家公司不可能、也不愿意把自己的長(zhǎng)期記憶交出去,和別人的揉成一個(gè)統(tǒng)一的大模型。
人和人之間更是如此,如果一個(gè)模型同時(shí)握著我和你的長(zhǎng)期記憶,我只要問(wèn)它,就能把你的隱私全套出來(lái),這是很可怕的。每個(gè)人、每個(gè)企業(yè)的記憶必須被干凈地隔開(kāi)。LoRA 的「一個(gè)底座、無(wú)數(shù)獨(dú)立技能包」,現(xiàn)在看就是實(shí)現(xiàn)這種隔離的一個(gè)很好的方式。
Q:為什么你們認(rèn)定,光靠大模型本身解決不了「記憶」和「?jìng)€(gè)性化」這件事,非得用 LoRA 這種機(jī)制來(lái)補(bǔ)?
陳鍇杰:因?yàn)榻裉熘髁鞯挠洃涀龇ǎ举|(zhì)上是把東西寫(xiě)進(jìn)一個(gè)外部的文檔或數(shù)據(jù)庫(kù)里,你可以理解成模型旁邊掛了一個(gè)不斷變長(zhǎng)的記事本,它記住的是事實(shí)和上下文。
這種方式一開(kāi)始很好用,模型越用越懂你。但它有個(gè)躲不掉的毛病:這個(gè)記事本只增不減,越記越長(zhǎng),而模型每次能真正「讀進(jìn)腦子」的篇幅是有限的。于是記的東西越多,命中你當(dāng)下需要的那條的概率反而越低,到某個(gè)臨界點(diǎn),體驗(yàn)會(huì)開(kāi)始往下掉。消費(fèi)者其實(shí)很久沒(méi)用過(guò)一個(gè)「越用越難用」的產(chǎn)品了,微信是越用越好用的,因?yàn)榕笥言絹?lái)越多;但一個(gè)記事本式記憶的助手,可能用到第三周就開(kāi)始變笨。
我們的判斷是,真正的長(zhǎng)期記憶不該寫(xiě)在外部記事本里,而該「訓(xùn)進(jìn)參數(shù)」。寫(xiě)進(jìn) prompt 或文檔的,是臨時(shí)的、外掛的;訓(xùn)進(jìn)參數(shù)的,才是模型自己長(zhǎng)出來(lái)的、穩(wěn)定的能力。LoRA 正好是承載這件事的工具——它把你這個(gè)人的偏好、習(xí)慣、和它打交道的方式,沉淀成模型參數(shù)里的一小塊,而不是一段隨時(shí)可能被擠出窗口的文字。
Q:在「參數(shù)化記憶」這個(gè)大方向下,我們注意到你們其實(shí)不止 LoRA 一條線,還有一個(gè)叫 δ-mem 的東西。一個(gè)是離線訓(xùn)練出來(lái)的參數(shù)技能包,一個(gè)是實(shí)時(shí)更新的在線記憶矩陣。這兩條在你們的記憶體系里怎么分工?還是說(shuō),你們自己也在賭哪條更對(duì)?
陳鍇杰:這兩條沒(méi)有大家想的那么對(duì)立。δ-mem 也是從 LoRA 這套方法里長(zhǎng)出來(lái)的,本質(zhì)上做的還是同一件事,是把記憶沉淀進(jìn)參數(shù),而不是掛在外面。只是我們做研發(fā)的過(guò)程中,在架構(gòu)上產(chǎn)生了一些創(chuàng)新的想法,就把它做出來(lái)了,做出來(lái)發(fā)現(xiàn)效果還不錯(cuò)。
Q:如果三五年后,通用底模本身強(qiáng)到能直接理解每一個(gè)用戶,你們這套「為每個(gè)人掛一片 LoRA」的事,是不是就失去意義了?
陳鍇杰:我不這么認(rèn)為,而且原因正是剛才說(shuō)的 Isolation。
最本質(zhì)的一點(diǎn)是,每個(gè)人的數(shù)據(jù)、經(jīng)驗(yàn)和生活經(jīng)歷,是各自保存的——這意味著我的數(shù)據(jù)、和另一個(gè)人的很難也不該被混在一起訓(xùn)進(jìn)同一個(gè)模型,再讓這一個(gè)模型把我們?nèi)齻€(gè)都服務(wù)得很好。
模型本身肯定會(huì)越來(lái)越聰明,但每個(gè)人獨(dú)特的體驗(yàn),最后還是要靠屬于每個(gè)人的那部分?jǐn)?shù)據(jù)來(lái)支撐,而這些東西最終會(huì)沉淀在屬于你的參數(shù)、屬于你的模型層里。所以哪怕底座越來(lái)越強(qiáng),「每個(gè)主體有一片只屬于自己、被隔離的參數(shù)」這個(gè)需求不會(huì)消失,反而會(huì)更剛性——底座變強(qiáng),只會(huì)讓掛在它上面的每一片個(gè)性化技能包更值錢(qián),而不是把它們抹掉。
Q:這兩年另一個(gè)很熱的詞是 harness,給模型套一層環(huán)境記憶框架。會(huì)不會(huì)「通用模型 + harness」就夠了,根本用不著你們這套「通用模型 + LoRA」?
陳鍇杰:我們其實(shí)自己也做 harness,而且把 harness 和模型訓(xùn)練放在一起,所以反而有更多空間把這件事做好。
在「后訓(xùn)練加 harness」這件事上,我們幾乎和最好的團(tuán)隊(duì)站在同一條線上,同時(shí)又有自己選的方向衣食住行、長(zhǎng)期生活主題。在這個(gè)方向上,把訓(xùn)模型、后訓(xùn)練、持續(xù)學(xué)習(xí)的 LoRA 和 harness 放在一起,我相信能做出最獨(dú)特、最有價(jià)值的產(chǎn)品體驗(yàn)。
所以 harness 的發(fā)展對(duì)我們是好事,因?yàn)槲覀兛梢詾榱?harness 去訓(xùn)模型,很多團(tuán)隊(duì)做不了。說(shuō)具體點(diǎn),就是在我們的產(chǎn)品體驗(yàn)里有一個(gè)專用模型,你隨手記錄、分享生活碎片,它越來(lái)越懂你,給你推薦需要的餐廳、健身計(jì)劃、減肥計(jì)劃,孩子要買(mǎi)什么,推薦得越來(lái)越準(zhǔn)。這種體驗(yàn)需要模型和 harness 協(xié)同。像 OpenAI 就不會(huì)專門(mén)為這件事去訓(xùn)一個(gè)專用的 harness 和專用的模型。這里就是我們的機(jī)會(huì),把產(chǎn)品形態(tài)和模型訓(xùn)練放在一起。
Q:如果 LoRA 這條路一兩年、三五年都沒(méi)做出預(yù)期的效果,你們會(huì)掉頭去做別的嗎?還是說(shuō),你們就認(rèn)定了 LoRA?
陳鍇杰:我們真正三年沒(méi)變的有兩條:我們從第一天開(kāi)始就堅(jiān)持用訓(xùn)練的方法去提升 agent 能力,第二是讓研究和產(chǎn)品一起做 co-design,用真實(shí)產(chǎn)品提供真實(shí)任務(wù)、真實(shí)的失敗案例,再把這些反饋訓(xùn)回模型。今天其實(shí)很少看見(jiàn)優(yōu)秀的模型公司沒(méi)有自己的產(chǎn)品了,反過(guò)來(lái)也挺難的。
Q:你們到底把自己定義成一家什么公司?會(huì)直接說(shuō)自己是「模型公司」嗎?和 Kimi、智譜這些比,區(qū)別在哪?
陳鍇杰:我們成為了一家做 Agent 模型的 Frontier Lab。
但這和大家熟悉的模型公司不太一樣。Kimi、智譜這些更多是從預(yù)訓(xùn)練、從數(shù)據(jù)和基礎(chǔ)設(shè)施出發(fā),去做通用底模;我們是從用戶需求、從真實(shí)產(chǎn)品里跑出來(lái)的問(wèn)題出發(fā),去做后訓(xùn)練和持續(xù)學(xué)習(xí)。說(shuō)得直白點(diǎn),別人是先有模型再找場(chǎng)景,我們是從場(chǎng)景倒推模型。
它會(huì)自然導(dǎo)出一些特性,做后訓(xùn)練天然更貼近用戶,你得對(duì)數(shù)據(jù)有理解,才能做更好的后訓(xùn)練,預(yù)訓(xùn)練是學(xué)習(xí)互聯(lián)網(wǎng)、學(xué)習(xí)人類知識(shí),后訓(xùn)練是學(xué)習(xí)場(chǎng)景、學(xué)習(xí)在一個(gè)場(chǎng)景里怎么更好地互動(dòng)。連公司規(guī)模也會(huì)不一樣,預(yù)訓(xùn)練和后訓(xùn)練需要的卡大概差半個(gè)量級(jí)、三到十倍,最后的體量也不同。在中國(guó),以這個(gè)視角去訓(xùn)模型的公司,應(yīng)該是很少的。
外界有時(shí)把我們這種形態(tài)叫 Neolab,它不是傳統(tǒng)意義上的實(shí)驗(yàn)室,而是一種新的 AI 公司組織方式,團(tuán)隊(duì)年輕、人才密度高,目標(biāo)不是包裝一個(gè) AI 應(yīng)用,而是持續(xù)去探技術(shù)上限。海外像 Thinking Machines Lab、Ilya 的 SSI 和李飛飛的 World Labs 都有這個(gè)氣質(zhì),國(guó)內(nèi)還比較少。我們大概是這個(gè)形態(tài),技術(shù)深度上和它們有相通之處,但產(chǎn)品和模式開(kāi)始得更早。
Q:你們是什么時(shí)候明確「要做一家后訓(xùn)練公司」的?這中間最大的糾結(jié)是什么,最后怎么決策的?
陳鍇杰:公司誕生時(shí) Andrew 那篇論文就埋下了。它叫 Towards Language Agent Fine-Tuning,走向大語(yǔ)言模型 agent 的后訓(xùn)練。但怎么把它做扎實(shí)是難的,要把研究員號(hào)召起來(lái),要有足夠的算力和資金支持探索,應(yīng)用方向也得找到答案,不然沒(méi)法在空的環(huán)境里訓(xùn)練。更多是怎么在這兩年半里把它變成現(xiàn)實(shí)。
決定做大規(guī)模強(qiáng)化學(xué)習(xí)這件事真的很難。我們做出來(lái)的時(shí)候,國(guó)內(nèi)可能就四五家,DeepSeek、Kimi、字節(jié)、阿里,然后是我們。當(dāng)時(shí)下決心很難,錢(qián)不多、人也不多,卻要挑戰(zhàn)這么難的事。但你不做強(qiáng)化學(xué)習(xí),就沒(méi)辦法做后訓(xùn)練,所以最后還是咬牙做了,今天看是正確的選擇。
我能咬緊牙關(guān),也是因?yàn)槲覀冋J(rèn)定自己是一家做后訓(xùn)練的公司我們對(duì)創(chuàng)業(yè)的偏好是一致的,它應(yīng)該是一家成功的、有技術(shù)價(jià)值的公司。
Q:現(xiàn)在高性能通用模型越來(lái)越閉源,而你們要基于足夠大的模型才效果好。如果未來(lái)模型都閉源、你們甚至成了模型的購(gòu)買(mǎi)方,這件事的利潤(rùn)空間還剩多少?
陳鍇杰:我覺(jué)得總會(huì)有開(kāi)源模型。現(xiàn)在開(kāi)源和閉源效果差異不大,如果哪天差異變得非常大,事情可能會(huì)不一樣;但我覺(jué)得中國(guó)會(huì)持續(xù)有很好的開(kāi)源模型,這點(diǎn)不會(huì)變——只要有第二名,大家還是會(huì)有開(kāi)源的傾向。如果真的都閉源了、我們要去購(gòu)買(mǎi),那怎么算性價(jià)比、服務(wù)用戶能產(chǎn)生多少價(jià)值,可能就是未來(lái)商業(yè)模式的考量,今天公司還沒(méi)到思考這個(gè)問(wèn)題的階段。也有可能在那種情況下,我們會(huì)像微軟和 OpenAI 當(dāng)初那樣,和某一個(gè)公司深度合作,這也不是沒(méi)有可能。
Q:三年后,你希望大家怎么記住 Mindverse(心洲科技)?有沒(méi)有想過(guò)終點(diǎn),會(huì)是上市、被收購(gòu),還是別的?
陳鍇杰:終局在我們心里,是 agent model 和 C 端產(chǎn)品形成一個(gè)飛輪。我們的技術(shù)驅(qū)動(dòng)出別人做不出來(lái)的產(chǎn)品體驗(yàn),這里面甚至包含硬件和其他形態(tài),也在和一些公司合作;同時(shí)這套訓(xùn)練和部署的能力會(huì)服務(wù)越來(lái)越多的企業(yè),2B 這條線也在快速長(zhǎng)。再往遠(yuǎn)看,這個(gè)行業(yè)的終局可能是天文級(jí)的算力被部署到太空里,超過(guò)今天一個(gè)國(guó)家的發(fā)電量,那是個(gè)遙遠(yuǎn)的圖景,剩下的都是過(guò)程。
Q:如果只能在「做一個(gè)改變歷史的研究突破」和「做一家持續(xù)盈利的公司」之間選一個(gè),你們選哪邊?
陳鍇杰:我們會(huì)選研究突破那一邊。不是不在乎盈利,而是我們相信,只要你在技術(shù)上真的解決了別人解決不了的問(wèn)題,商業(yè)自然會(huì)來(lái)找你;反過(guò)來(lái)不成立。
如果非要落到一個(gè)普通人身上,這條路要是走通了,他的生活會(huì)少掉很多煩惱、多出一些踏實(shí)的幸福。但每個(gè)人的境遇各有不同,悲歡亦是千人千面,而這恰恰就是「?jìng)€(gè)性化」這件事的全部意義,不是給所有人一個(gè)更聰明的模型,而是讓智能真正洞悉每一個(gè)獨(dú)特的靈魂。
![]()
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.