網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

真格天使項(xiàng)目「Mindverse」完成 5000 萬(wàn)美元 A 輪融資，打造持續(xù)學(xué)習(xí)的 Agent 模型

2026-06-02 17:12:03　來(lái)源: 真格基金

北京舉報(bào)

分享至

一個(gè)會(huì)持續(xù)學(xué)習(xí)的先進(jìn) Agent 模型，到底該怎么構(gòu)建？

在大模型智能上限一路被推高時(shí)，「持續(xù)學(xué)習(xí)」的最佳答案還是沒(méi)有出現(xiàn)。

近日，Mindverse（心洲科技）完成由美團(tuán)領(lǐng)投的 A 輪融資，元禾璞華、韶音、變量資本和老股東追加跟投，總?cè)谫Y額近 5000 萬(wàn)美元。2024 年，真格基金自其創(chuàng)立之初便成為首輪投資方，一路陪伴至今。

「真正的 Agent 能力并非來(lái)自精巧的提示詞拼湊，而是源自后訓(xùn)練。」Mindverse 是少數(shù)把賭注押在模型「內(nèi)部」的一家創(chuàng)企，它在通用大模型的基礎(chǔ)上，用強(qiáng)化學(xué)習(xí)讓它從復(fù)雜、多步驟的真實(shí)任務(wù)中學(xué)會(huì)如何把事做成，讓模型從「知道很多」變?yōu)椤改苻k好事」。

而實(shí)現(xiàn)持續(xù)進(jìn)化的關(guān)鍵在于 LoRA 技術(shù)，它就像給一個(gè)強(qiáng)大的共享大腦掛上無(wú)數(shù)輕量的「技能包」，每個(gè)技能包只占極小參數(shù)，卻能獨(dú)立更新、彼此隔離，讓模型以極低成本不斷積累屬于特定用戶或場(chǎng)景的記憶與能力，而不是每次從頭重訓(xùn)。

三年前，當(dāng)整個(gè)行業(yè)的目光還盯在預(yù)訓(xùn)練上，Mindverse 的創(chuàng)始人 Andrew 就在一篇和姚順雨合作的論文里寫(xiě)下了一個(gè)幾乎沒(méi)人認(rèn)同的判斷：

Agent 的能力，最終要回到模型訓(xùn)練本身，而不是靠 prompt 和框架拼出來(lái)。

早期 Mindverse（心洲科技）內(nèi)部研討會(huì)議

三年過(guò)去，當(dāng)行業(yè)注意力從預(yù)訓(xùn)練涌向后訓(xùn)練，這家公司發(fā)現(xiàn)，自己一直默默走的那條路，已經(jīng)站到了潮水的正中央。很快他們將開(kāi)源自己訓(xùn)練的 750B agent 模型，這也會(huì)成為全球第一個(gè)在 GLM 5.1 上完成強(qiáng)化學(xué)習(xí)后訓(xùn)練的成果。

看準(zhǔn)這件事很早，公司團(tuán)隊(duì)卻不大。Mindverse 核心研發(fā)約 20 人，成員來(lái)自 DeepSeek、字節(jié) Seed、xAI，也有清華、MIT、杜克的背景，累計(jì)發(fā)表過(guò) 200 多篇頂會(huì)論文。

兩位創(chuàng)始人陳鍇杰、Andrew 從 2018 年就一起休學(xué)創(chuàng)業(yè)，做過(guò)機(jī)器人、辦過(guò)實(shí)驗(yàn)室，又各自回到學(xué)校，2023 年再次走到一起。Andrew 抓住了從 agent 訓(xùn)練到先進(jìn) agent model 的技術(shù)范式，首席科學(xué)家馬驍騰帶來(lái)了十年的強(qiáng)化學(xué)習(xí)積累，而陳鍇杰則主要關(guān)注業(yè)務(wù)模型的應(yīng)用和用戶價(jià)值判斷。

在和陳鍇杰這場(chǎng)對(duì)話里，我們想弄清楚的是：如何用后訓(xùn)練的方式，訓(xùn)練出一個(gè)便宜、好用、還能持續(xù)成長(zhǎng)的模型？

模型變強(qiáng)的下半場(chǎng)，在后訓(xùn)練

Q：這一兩年，行業(yè)的注意力肉眼可見(jiàn)地從預(yù)訓(xùn)練轉(zhuǎn)向后訓(xùn)練。后訓(xùn)練這件事，是什么時(shí)候真正變重要的？

陳鍇杰：今天預(yù)訓(xùn)練和后訓(xùn)練的邊界已經(jīng)越來(lái)越模糊，預(yù)訓(xùn)練階段也會(huì)混入大量 Agent 軌跡數(shù)據(jù)。但大體上仍然可以這樣區(qū)分：預(yù)訓(xùn)練主要利用互聯(lián)網(wǎng)數(shù)據(jù)建立對(duì)世界的基本認(rèn)知，后訓(xùn)練則把這些認(rèn)知轉(zhuǎn)化成具體能力。

真正的分水嶺大概出現(xiàn)在 DeepSeek 發(fā)布 R1 的時(shí)候。那是行業(yè)第一次看到強(qiáng)化學(xué)習(xí)能夠系統(tǒng)性地推動(dòng)大模型能力提升，也是后訓(xùn)練地位快速上升的開(kāi)始。在那之前，后訓(xùn)練消耗的算力可能只占預(yù)訓(xùn)練的 3% 到 5%，現(xiàn)在絕大部分模型能力的進(jìn)步都發(fā)生在后訓(xùn)練階段。

一個(gè)重要原因是，行業(yè)開(kāi)始積累此前互聯(lián)網(wǎng)中不存在的數(shù)據(jù)。Claude Code 這樣的產(chǎn)品里大量真實(shí)任務(wù)產(chǎn)生的 Agent 軌跡開(kāi)始被沉淀下來(lái)，成為推動(dòng)后訓(xùn)練持續(xù)演進(jìn)的重要基礎(chǔ)。

Q：后訓(xùn)練真正解決的，到底是模型的什么？是能力，是對(duì)齊，還是讓它「學(xué)會(huì)做事」？

陳鍇杰：是在「對(duì)世界的基本認(rèn)知」這個(gè)底子之上，去增強(qiáng)它在真實(shí)任務(wù)里的能力。預(yù)訓(xùn)練給了它知識(shí)和世界觀，但一個(gè)知道很多事的人，不等于一個(gè)能把事做成的人——后訓(xùn)練補(bǔ)的就是后面這半截：怎么在真實(shí)任務(wù)里把已有的認(rèn)知用起來(lái)、用對(duì)。

而且這件事還有一個(gè)更未來(lái)的形態(tài)，叫持續(xù)學(xué)習(xí)（continual learning）。我們想做的是有一種訓(xùn)練模型的方法，能讓模型用很低的成本不斷演化、進(jìn)化，學(xué)習(xí)新的知識(shí)、做新的任務(wù)，也遺忘那些不需要的知識(shí)和任務(wù)，讓效果以一種漸進(jìn)的方式提升。它不是訓(xùn)練完就定型，而是一邊在真實(shí)場(chǎng)景里運(yùn)行、一邊持續(xù)地更新自己。

Q：你們認(rèn)定要靠訓(xùn)練去解決這件事，其實(shí)下手很早。2023 年那篇 FireAct 就提出「agent 能力來(lái)自訓(xùn)練、而不是 prompt」，當(dāng)時(shí)還是個(gè)非共識(shí)。為什么你們敢這么早押注？

陳鍇杰：這個(gè)判斷和我離開(kāi)學(xué)校后的第二次創(chuàng)業(yè)經(jīng)歷有關(guān)。當(dāng)時(shí)我們?cè)谧?AI 游戲，用的是 GPT-2、GPT-3 時(shí)代的模型。能力很有限，但已經(jīng)需要構(gòu)建一個(gè)會(huì)隨著用戶行為不斷變化的 AI 世界，本質(zhì)上是在搭建復(fù)雜工作流。

那兩年我們很清楚地看到一個(gè)問(wèn)題。單個(gè)步驟成功率達(dá)到 95%，看起來(lái)已經(jīng)很高，但當(dāng)十幾個(gè)步驟串聯(lián)在一起時(shí)，誤差會(huì)不斷累積，最終破壞整個(gè)體驗(yàn)。長(zhǎng)程任務(wù)不可能只依賴 Prompt 拼接完成，能力最終必須通過(guò)訓(xùn)練獲得。今天大家常說(shuō)的 trajectory，本質(zhì)上就是一條連續(xù)的思考與行動(dòng)軌跡。

后來(lái)姚順雨提出 ReAct，把思考和行動(dòng)組織成一條連續(xù)軌跡。我們看到這件事的時(shí)候，其實(shí)非常有共鳴。也是從那個(gè)時(shí)候開(kāi)始，我們?cè)絹?lái)越確信，Agent 能力最終會(huì)回到訓(xùn)練本身。Andrew 和他一起發(fā)完 FireAct 那篇論文之后，我們也決定沿著這條路線繼續(xù)往前走，成立公司，把這件事做下去。

Q：這條路繞不開(kāi) LoRA。但大部分人對(duì) LoRA 的印象還停在「給圖片加個(gè)濾鏡」。在你們這兒它顯然不是這個(gè)角色，該怎么重新理解它，它和強(qiáng)化學(xué)習(xí)又是什么關(guān)系？

陳鍇杰：我們最初選 LoRA 是個(gè)很現(xiàn)實(shí)的考慮，因?yàn)樗且粋€(gè)極致性價(jià)比的訓(xùn)練方法。

你可以把它理解成一個(gè)自適應(yīng)的適配器：它不去動(dòng)整個(gè)模型，而是把模型里最關(guān)鍵的那部分參數(shù)提煉出來(lái)訓(xùn)練，用很少的參數(shù)就能擬合整個(gè)模型的訓(xùn)練效果。因?yàn)槲覀冏钤缰挥袔资ā⒁话倏ǖ募海艿竭@個(gè)限制我們必須把每一分算力的效率榨到極致。

但今天 LoRA 演變成了構(gòu)建持續(xù)學(xué)習(xí)的技術(shù)底座，它負(fù)責(zé)讓模型的能力能夠不斷地被承載、被更新。

LoRA 和強(qiáng)化學(xué)習(xí)是分工的兩件事。強(qiáng)化學(xué)習(xí)是后訓(xùn)練里最主要的方法，負(fù)責(zé)把模型的能力真正練出來(lái)。在萬(wàn)億參數(shù)這個(gè)規(guī)模下，強(qiáng)化學(xué)習(xí)和 LoRA 的適配兩件事情都很困難，但都繞不開(kāi)。

Q：你們研究真正的轉(zhuǎn)折點(diǎn)是哪一刻？我們注意到一個(gè)挺微妙的細(xì)節(jié)，幾乎在同一時(shí)間，硅谷的 Thinking Machines 也在做同一件事。

陳鍇杰：轉(zhuǎn)折在 2025 年 9 月前后。

我們發(fā)現(xiàn)在足夠大的 MoE 模型上用 LoRA 做強(qiáng)化學(xué)習(xí)，性能是沒(méi)有損失的。一個(gè)輕量的低秩方法去更新模型，和把整個(gè)模型全參數(shù)更新一遍，效果一樣。這意味著我們能用 1/10 的成本，拿到和全參數(shù)訓(xùn)練一模一樣的結(jié)果。現(xiàn)在它從一個(gè)性能和效率的取舍變成了對(duì)效率的單調(diào)優(yōu)化。

做出這個(gè)結(jié)果時(shí)我們第一反應(yīng)是懷疑自己。直到 Thinking Machines 隨后在 9 月 29 日他們發(fā)了《LoRA Without Regret》，結(jié)論跟我們完全一致。看到他們獨(dú)立印證了同一件事，我們反而踏實(shí)了。

到去年 12 月底，我們完成了萬(wàn)億參數(shù)的 LoRA 強(qiáng)化學(xué)習(xí)，和 Thinking Machines 同期發(fā)布。全球那時(shí)能做到的只有我們兩家，今年加上 Fireworks（Cursor Composer 模型的合作伙伴）也就三家。

Q：你說(shuō) LoRA 是「構(gòu)建持續(xù)學(xué)習(xí)的技術(shù)底座」。這句話具體怎么理解？為什么 LoRA 這層?xùn)|西，會(huì)成為模型「持續(xù)學(xué)習(xí)」的關(guān)鍵元器件？

陳鍇杰：它是基模上面的一個(gè)更小的層，比如我們最新要發(fā)的模型，就是基模加上面這個(gè) LoRA 一層，LoRA 這層的參數(shù)量大概是基模的千分之五，有很多個(gè)的話會(huì)更大。因?yàn)檫@一層參數(shù)不多，所以它便宜、好訓(xùn)、可以擴(kuò)展。

舉個(gè)例子，假設(shè)我服務(wù)一個(gè)金融客戶，先把他的股票、市場(chǎng)數(shù)據(jù)訓(xùn)成一個(gè)金融推理模型。過(guò)三個(gè)月，金融市場(chǎng)又發(fā)生很多事、股價(jià)也變了，這些新數(shù)據(jù)怎么辦？

OpenAI、Anthropic 要把這些再訓(xùn)進(jìn)預(yù)訓(xùn)練里，是很貴、很難、動(dòng)起來(lái)成本極大的一件事；但這個(gè)金融客戶，因?yàn)?LoRA 本身夠小，只要繼續(xù)訓(xùn)這個(gè) LoRA、把新數(shù)據(jù)再訓(xùn)進(jìn)去就行。LoRA 的大小也不固定，可以做得很小很小，小到每個(gè)人有一個(gè)、薄薄的一片，用一個(gè)人一個(gè)月的數(shù)據(jù)去訓(xùn)，可能就是幾十美金的量級(jí)；而最大的、能追平全參數(shù)訓(xùn)練效果的 LoRA，也不過(guò)幾萬(wàn)、幾十萬(wàn)美金。所以它有非常大的可調(diào)節(jié)空間：你企業(yè)數(shù)據(jù)少能訓(xùn)，數(shù)據(jù)多也能訓(xùn)，想要接近預(yù)訓(xùn)練級(jí)別的大提升、讓它學(xué)會(huì)一門(mén)新的代碼語(yǔ)言，也能訓(xùn)。單個(gè) LoRA 薄、好訓(xùn)、可加、便宜，這就是 LoRA 在持續(xù)學(xué)習(xí)上的第一層意義。

Q：如果不用任何術(shù)語(yǔ)，讓一個(gè)普通人聽(tīng)明白，你們到底在做一件什么事？

陳鍇杰：我們?cè)谝粋€(gè)足夠強(qiáng)的大模型底座上，掛很多個(gè)「技能包」，讓一個(gè)模型能同時(shí)變成成千上萬(wàn)個(gè)各有所長(zhǎng)的模型，去服務(wù)不同的人、不同的企業(yè)、不同的場(chǎng)景。

這個(gè)底座就是 base model，提供通用的智能上限；那些「技能包」就是 LoRA，每一個(gè)承載一小塊具體的東西，里面可以是某個(gè)用戶的長(zhǎng)期偏好、某個(gè)企業(yè)的業(yè)務(wù)經(jīng)驗(yàn)、某類任務(wù)的打法。

過(guò)去大家的默認(rèn)做法是「一個(gè)模型服務(wù)所有人」，所有人共用同一套參數(shù)。我們想做的是反過(guò)來(lái)，共享同一個(gè)聰明的底座，但每個(gè)人、每個(gè)場(chǎng)景頭上都有一片屬于自己的、還能持續(xù)長(zhǎng)大的參數(shù)。我們把這套結(jié)構(gòu)叫 mixture of LoRA。

Q：mixture of LoRA，這名字會(huì)讓人立刻想到 MoE，大家熟悉的 mixture of experts。這兩個(gè)「mixture」是一回事嗎？

陳鍇杰：有學(xué)習(xí) MoE 的地方，但不一樣。MoE 里單獨(dú)一個(gè) expert 是沒(méi)法完成推理的，它更像是模型內(nèi)部自己分出來(lái)的計(jì)算單元。但 mixture of LoRA 里，每一個(gè) LoRA 都是獨(dú)特的、可以單獨(dú)調(diào)用、對(duì)應(yīng)一塊明確的能力。

舉個(gè)例子，假設(shè)我要做金融任務(wù)，我可以一次性掛 10 個(gè) LoRA，一個(gè)學(xué)股價(jià)、一個(gè)學(xué)財(cái)報(bào)、一個(gè)學(xué)風(fēng)控……分頭去學(xué)。哪天我又要加兩個(gè)新任務(wù)，比如港股打新的技巧，我完全不用動(dòng)前面那 10 個(gè)已經(jīng)學(xué)好的，直接再加兩個(gè) LoRA 進(jìn)去學(xué)就行，學(xué)完一掛，模型的能力就天然擴(kuò)展了一塊，舊的一點(diǎn)沒(méi)受影響。這就是為什么我們說(shuō)它是一個(gè)「天生適合持續(xù)學(xué)習(xí)」的結(jié)構(gòu)。因?yàn)槠渌械哪芰κ且粔K塊累加上去的，而不是每加一點(diǎn)新東西就得把整個(gè)模型重訓(xùn)一遍、還冒著把舊本事弄丟的風(fēng)險(xiǎn)。這也是 LoRA 的第二層意義，在 mixture of LoRA 的持續(xù)擴(kuò)展上。

我們還在探索的、更遠(yuǎn)的可能，比如說(shuō)讓 LoRA 之間協(xié)商、合作。當(dāng)我們有了 mixture of LoRA 這個(gè)架構(gòu)，我們會(huì)關(guān)注不同的 LoRA 之間的協(xié)作，會(huì)不會(huì)因?yàn)槟Ｐ偷亩鄻有詭?lái)更好的結(jié)果。

Q：這套結(jié)構(gòu)落到一個(gè)真東西上，就是你們即將要發(fā)的模型？

陳鍇杰：我們很快會(huì)開(kāi)源我們訓(xùn)練的模型，它天生就支持 mixture of LoRA，是一個(gè) 750B 參數(shù)的 Agent 模型，其中是 744B 的預(yù)訓(xùn)練 GLM 5.1 + 6B 的 LoRA。我們應(yīng)該是除了智譜以外，第一個(gè)在 GLM 5.1 上完成強(qiáng)化學(xué)習(xí)后訓(xùn)練的團(tuán)隊(duì)。

在 GLM5.1 上面做 LoRA 強(qiáng)化學(xué)習(xí)是有實(shí)打?qū)嵉墓こ涕T(mén)檻的，需要適配 DSA，DeepSeek Sparse Attention，還有 MTP，Multi Token Prediction。我們這個(gè)模型不是去追「什么都會(huì)」的通用基模，它是專門(mén)面向 agent 場(chǎng)景深度后訓(xùn)練出來(lái)的，主要服務(wù)于生成式 UI 的編碼、生活中的聊天、長(zhǎng)鏈路推理和工具調(diào)用。

Q：新模型你們定義成一個(gè) Agent Model。這個(gè)詞該怎么理解？大家在后訓(xùn)練上的投入，最終都是為了它嗎？

陳鍇杰：最新的前沿模型都是面向 agent 的模型。

拿 Claude 舉例：它出了 Claude Code 之后，模型訓(xùn)練就會(huì)用 Claude Code 的數(shù)據(jù)，這些數(shù)據(jù)和我們平常用豆包那樣「問(wèn)一句答一句」完全不同。在 Claude Code 里，你寫(xiě)一段代碼是一個(gè)非常長(zhǎng)的任務(wù)，中間有很多交互，是一條很長(zhǎng)鏈路的數(shù)據(jù)。用這些數(shù)據(jù)訓(xùn)練之后，Claude 這個(gè)模型就越來(lái)越「agent native」，越來(lái)越適應(yīng) agent 的架構(gòu)，因?yàn)樗緛?lái)就是用這些數(shù)據(jù)訓(xùn)出來(lái)的。所以模型和應(yīng)用場(chǎng)景是相輔相成的，大家都在往這個(gè)方向演進(jìn)，進(jìn)度各不相同。

我們做的也是這件事，只不過(guò)場(chǎng)景放在生活上。Macaron 是我們的 agent harness，生活場(chǎng)景里同樣有很多復(fù)雜的工具調(diào)用、代碼執(zhí)行，還有很多模糊的請(qǐng)求，用戶自己也不知道想干什么。我們會(huì)把這些串成一條連續(xù)的任務(wù)鏈路，讓模型在這條鏈路里通過(guò)訓(xùn)練做得更好，去提升 agent 的表現(xiàn)。

當(dāng)我們說(shuō) agent model 時(shí)，指的就是：這個(gè)模型訓(xùn)出來(lái)，是為了在一個(gè)多輪 agent 環(huán)境里使用的，專門(mén)為這個(gè)環(huán)境做了優(yōu)化。它還是一個(gè)模型，但做了 agent 的訓(xùn)練。

我們很特別的地方在于，市面上幾乎沒(méi)有專門(mén)為 agent 工作流優(yōu)化的模型。國(guó)內(nèi)大批量的開(kāi)源模型，基本還在追趕 GPT 和 Claude 最先進(jìn)的那一代，所以大家的精力很多還在預(yù)訓(xùn)練上，怎么先趕上，可能還顧不上把 agent 這部分在后訓(xùn)練里做得特別好。

Claude 肯定在逐漸做，做得也非常好，但同時(shí)他們要管的課題多很多。我們是專門(mén)為 agent 訓(xùn)練模型，讓它把 agent 任務(wù)做得更好，工具調(diào)用、記憶提取、什么時(shí)候該把任務(wù)交還給用戶、什么時(shí)候繼續(xù)多輪思考，這些它都會(huì)做得更好。

模型時(shí)代，時(shí)間就是最大的壁壘

Q：大家最初認(rèn)識(shí) Mindverse（心洲科技）就是從 Macaron 開(kāi)始。你談到 Macaron 不只是個(gè) C 端產(chǎn)品，而是模型的 agent harness。能具體講講，模型和產(chǎn)品到底怎么互相喂養(yǎng)？這和大家常說(shuō)的「拿用戶數(shù)據(jù)訓(xùn)模型」有什么不一樣？

陳鍇杰：我們從一開(kāi)始，就是把模型訓(xùn)練和 C 端應(yīng)用的迭代放在一起看的，它不是「先有模型、再拿產(chǎn)品收集點(diǎn)數(shù)據(jù)」那么簡(jiǎn)單，而是一個(gè)雙向的循環(huán)。

但我們和很多人有個(gè)關(guān)鍵區(qū)別，我們不直接拿用戶的數(shù)據(jù)去訓(xùn)練。生活里的隱私和工作一樣重要，而很多人會(huì)直接拿用戶數(shù)據(jù)訓(xùn)模型。我們的做法是借助用戶的反饋，去理解數(shù)據(jù)里的分布和特點(diǎn)，然后造一個(gè)我們自己的模擬環(huán)境，把模型放進(jìn)這個(gè)模擬環(huán)境里訓(xùn)練。我們會(huì)故意往里面加很多噪聲、干擾、極端情況，因?yàn)檎鎸?shí)用戶的表現(xiàn)本來(lái)就非常極端：會(huì)中途打斷、會(huì)改目標(biāo)，還會(huì)給到錯(cuò)的、過(guò)時(shí)的信息。模型在這種環(huán)境里練出來(lái)，才扛得住現(xiàn)實(shí)里 agent 真正會(huì)遇到的狀況。而且后訓(xùn)練需要的數(shù)據(jù)量其實(shí)很小，幾萬(wàn)條、幾十萬(wàn)條就是一個(gè)很有意義的規(guī)模，它不像預(yù)訓(xùn)練要那么大的量，更關(guān)鍵的是數(shù)據(jù)質(zhì)量要非常高。

反過(guò)來(lái)，模型也喂產(chǎn)品。這些訓(xùn)出來(lái)的能力，訓(xùn)完是直接部署回 Macaron 的，產(chǎn)品體驗(yàn)的上限本就由模型能力決定。這和 Anthropic 是同一個(gè)邏輯，Claude 的訓(xùn)練直接服務(wù) Claude Code，Claude Code 里跑出來(lái)的東西又流回去訓(xùn)模型，只不過(guò)我們的場(chǎng)景是生活。

Macaron 對(duì)我們的意義，不是多一個(gè)產(chǎn)品入口，而是給模型提供了一個(gè)真實(shí)、長(zhǎng)期、會(huì)持續(xù)產(chǎn)生反饋的 agent harness 和訓(xùn)練環(huán)境。Macaron 現(xiàn)在有 200 多萬(wàn)用戶、超過(guò) 10 萬(wàn)日活。

Q：你們很看重「生成式 UI」。模型把答案講清楚不就行了，為什么非要它會(huì)「畫(huà)界面」？

陳鍇杰：模型什么都返給你一段文字，其實(shí)不是一種好的表達(dá)方式。

人類天生就是一個(gè)視覺(jué)動(dòng)物，對(duì)圖形的感知要顯著的好于文字。同樣一件事，展示一張圖表，肯定比把這些數(shù)字寫(xiě)成一大段話更清晰——這中間省掉的，是你的認(rèn)知負(fù)擔(dān)。Google 在 IO 大會(huì)上講的 omni 也是這個(gè)意思，模型該用更豐富的形式把結(jié)果交給你，而不是永遠(yuǎn)丟一堆文本讓你自己消化。

在 Google 定義的 A2UI 這個(gè)標(biāo)準(zhǔn)上，SOTA 衡量的就不只是「模型能不能生成 UI」，而是「它生成的這個(gè)界面，幫用戶下降了多少認(rèn)知負(fù)擔(dān)」。在生活場(chǎng)景里這件事尤其關(guān)鍵：你問(wèn)「今天吃什么」，給你彈出幾個(gè)能直接點(diǎn)的選項(xiàng)卡，和給你寫(xiě)三百字，體驗(yàn)完全是兩回事。模型會(huì)不會(huì)「好好說(shuō)話」，在 C 端是直接決定體驗(yàn)的。

Q：你們?cè)谀Ｐ蜕厦婀嫉?benchmark 也挺有意思，生活類任務(wù)上拿了 SOTA，但代碼、數(shù)學(xué)這些硬核任務(wù)，你們明說(shuō)了只逼近、不追第一。這個(gè)取舍本身是一種表態(tài)吧？

陳鍇杰：這個(gè)選擇本身就說(shuō)明了我們是一家什么樣的公司。

姚順雨在「AI 下半場(chǎng)」里的觀點(diǎn)我們特別認(rèn)同：接下來(lái) benchmark 可能是模型訓(xùn)練里最重要的一環(huán)，因?yàn)槟氵x擇什么 benchmark，就是你想讓模型在哪些任務(wù)上變強(qiáng)。

我們挑了四個(gè)，Living Bench 是我們自己定義的、Vita Bench 是美團(tuán)出的，這兩個(gè)打的是生活類長(zhǎng)鏈路任務(wù)，比如一次旅行規(guī)劃，聽(tīng)著簡(jiǎn)單，真做起來(lái)牽涉的環(huán)節(jié)和個(gè)人偏好特別多；A2UI 是 Google 提出的生成式 UI 標(biāo)準(zhǔn)；PinchBench 是海外常用來(lái)刻畫(huà) OpenClaw 這類 agent 任務(wù)表現(xiàn)的榜單。這四個(gè)上我們都做到了 SOTA。

而客服、寫(xiě)代碼、純數(shù)學(xué)這些傳統(tǒng)任務(wù)，對(duì)我們也重要，但不是我們最想爭(zhēng)第一的地方，我們會(huì)去逼近開(kāi)源模型的最好水平，但不在這上面爭(zhēng)第一。說(shuō)白了，我們不想做一個(gè)樣樣考第一的通用模型，我們想做一個(gè)在「真實(shí)生活里把復(fù)雜的事辦成」這件事上最好的 agent 模型。

但從另一個(gè)角度來(lái)看，我們整套訓(xùn)練框架是可復(fù)用在多個(gè)場(chǎng)景的。我們通過(guò)這次發(fā)布的首個(gè)模型，本質(zhì)上是驗(yàn)證了「基座大模型+技能包」這條路在復(fù)雜長(zhǎng)鏈路任務(wù)里的有效性。因此，面對(duì)更廣闊的企業(yè)端垂直需求，我們不需要從頭訓(xùn)模型，只需要基于同一個(gè)底座，快速增強(qiáng)出對(duì)應(yīng)場(chǎng)景的專精技能，以極低邊際成本覆蓋新的 Benchmark。

Q：聽(tīng)說(shuō)你們能將模型后訓(xùn)練的成本降低 1/10，且效果保持不變。這 10 倍到底省在哪？這個(gè)事情在萬(wàn)億參數(shù)的模型上去做有什么難的地方？

陳鍇杰：省是因?yàn)槲也挥脼槊總€(gè)用戶、每個(gè)場(chǎng)景都復(fù)制一整個(gè)大模型。

打個(gè)比方，如果要給幾千個(gè)人各部署一個(gè)完整的萬(wàn)億參數(shù)大模型，那等于把同一個(gè)龐然大物原樣復(fù)制幾千份，需要的算力是個(gè)天文數(shù)字，經(jīng)濟(jì)上根本不可能發(fā)生。但在我們的結(jié)構(gòu)里，這幾千個(gè)模型共享同一個(gè)底座，各自只帶一片小小的 LoRA，所需的算力跟部署一個(gè)模型相比幾乎沒(méi)有增加，省掉的，就是那幾千份重復(fù)的底座。

至于為什么「越大越難」，是因?yàn)槔щy不是線性漲上去的，而是一道道工程門(mén)檻。在小模型上掛個(gè) LoRA 沒(méi)什么稀奇，但要在接近萬(wàn)億參數(shù)的超大模型上穩(wěn)定訓(xùn)練、并且把成百上千個(gè) LoRA 同時(shí)部署好，背后是一整套系統(tǒng)工程：算子要重寫(xiě)、顯存怎么管、訓(xùn)練和推理怎么保持一致、幾百萬(wàn)個(gè)技能怎么加載切換、多個(gè)客戶之間怎么隔離……每一項(xiàng)到了這個(gè)尺度都會(huì)變成硬骨頭。

國(guó)內(nèi)目前能在這種尺寸上做 LoRA 訓(xùn)練的，可能就我們一家。我們現(xiàn)在甚至在往極小的方向摳，傳統(tǒng) LoRA 一般用 16 或 32 的 rank，我們?cè)谘芯?rank 等于 1、甚至比 1 還小的算法，因?yàn)楹芏鄠€(gè)性化要存的信息其實(shí)沒(méi)那么多，技能包越小，性價(jià)比越高，能掛的數(shù)量也越多。

Q：數(shù)量是個(gè)關(guān)鍵詞。去年 12 月你們一個(gè)底座上能掛 10 個(gè) LoRA，今年就說(shuō)能到百萬(wàn)級(jí)。這個(gè)跳躍靠什么？而且「模型數(shù)量」聽(tīng)起來(lái)也成了一個(gè)新的 scaling 維度？

陳鍇杰：靠?jī)杉隆?/p>

一是把 LoRA 做得越來(lái)越小，剛才說(shuō)的 rank 做到 1，單個(gè)就更容易承載；二是更好的緩存機(jī)制，以前大家可能是三層緩存，我們多做了一層，加上很多并行處理的方法。也因此，它不是上百萬(wàn)個(gè)同時(shí)激活，而是這上百萬(wàn)個(gè)能以很快的速度激活，大概一秒以內(nèi)，一個(gè)請(qǐng)求進(jìn)來(lái)、命中了一個(gè)還沒(méi)激活的 LoRA，也能在一秒內(nèi)響應(yīng)。所以「同一個(gè) batch 只能做幾十個(gè)」其實(shí)不是限制，它取決于資源，你要部署百萬(wàn)個(gè)，把卡開(kāi)多一點(diǎn)就行。

而「模型數(shù)量本身成為一個(gè) scaling 維度」，是讓我們很興奮的事。過(guò)去大模型的 scaling 主線是把一個(gè)模型越做越大；agent 時(shí)代多出來(lái)一條線，是把模型的數(shù)量也規(guī)模化。

我們驗(yàn)證過(guò)它是成立的，掛上去的模型越多，整體智能穩(wěn)定往上走，差不多是一個(gè)自然對(duì)數(shù) scale 的線性提升。這對(duì)我們來(lái)說(shuō)也是個(gè)挺震驚的發(fā)現(xiàn)。所以我們可以做到一人一個(gè)、一個(gè)公司一個(gè)，或者一個(gè)任務(wù)領(lǐng)域一個(gè)。

Q：你們說(shuō)全球能做這件事的只有三家，可這聽(tīng)起來(lái)更像是「做得早」。如果大廠下定決心、甚至自己造一套 LoRA 后訓(xùn)練架構(gòu)，他們做得到嗎？你們真正的護(hù)城河是什么？

陳鍇杰：在大模型這件事上，時(shí)間本身就是壁壘。

你看 OpenAI 和 Anthropic 之間也沒(méi)有壁壘，沒(méi)有誰(shuí)做得了、誰(shuí)做不了，技術(shù)平臺(tái)一樣、人也在流動(dòng)。今天的 AI 是一個(gè)不斷「形成共識(shí)、追共識(shí)、再形成新共識(shí)」的過(guò)程。從有沒(méi)有共識(shí)，到強(qiáng)化學(xué)習(xí)、到 O1、R1、再到 agent，大家交替領(lǐng)先。真正的差別是在這種交替里，誰(shuí)先做出來(lái)、誰(shuí)走得更快，誰(shuí)就能率先和用戶、和 toB 客戶形成循環(huán)，把價(jià)值鎖定下來(lái)。

但我們也確實(shí)積累了一些別人一時(shí)繞不過(guò)的東西。一個(gè)是真實(shí)的工程沉淀和行業(yè)認(rèn)可，我們?cè)陂_(kāi)源社區(qū)和螞蟻、華為一起構(gòu)建 AReaL-MinT，和字節(jié)、英偉達(dá)一起構(gòu)建 verl-mint，這是國(guó)內(nèi)兩個(gè)最主要的強(qiáng)化學(xué)習(xí)框架，都把我們的 LoRA 技術(shù)整合了進(jìn)去；英偉達(dá)把我們掛在了官網(wǎng)首頁(yè)。這些不是 PR，是大家在底層真的用上。

另一個(gè)是我們看問(wèn)題的起點(diǎn)不一樣，大廠做模型通常從預(yù)訓(xùn)練、從數(shù)據(jù)和基礎(chǔ)設(shè)施往下推，我們是從用戶需求、從真實(shí)產(chǎn)品里跑出來(lái)的問(wèn)題往回推。這個(gè)從產(chǎn)品里長(zhǎng)出來(lái)的洞察，是只在實(shí)驗(yàn)室里訓(xùn)模型的人拿不到的。

Q：這些和大廠的合作具體落在哪一層？順著聊聊錢(qián)，你們的商業(yè)化邏輯是什么？既給云廠商做底層、自己又做產(chǎn)品，這中間不會(huì)打架嗎？

陳鍇杰：合作分幾個(gè)層次。

和英偉達(dá)是在開(kāi)源社區(qū)雙向的技術(shù)共建，我們把算子寫(xiě)出來(lái)、一起共建底層平臺(tái)；和字節(jié)、螞蟻是在開(kāi)源社區(qū)共建強(qiáng)化學(xué)習(xí)框架，我們既用他們的平臺(tái)，也把高效訓(xùn)練的方法貢獻(xiàn)了進(jìn)去。再往上到業(yè)務(wù)層，因?yàn)槲覀冇懈咝У牟l(fā)訓(xùn)練、并發(fā)推理基礎(chǔ)設(shè)施，能幫客戶把訓(xùn)練成本降一個(gè)數(shù)量級(jí)、大概到原來(lái)的 1/10，就和華為云、微軟云、阿里云、火山這樣的客戶形成合作，和華為是很深的戰(zhàn)略合作。

至于會(huì)不會(huì)打架，我們想得比較清楚，不想把自己做成一家純商業(yè)化的公司。如果某個(gè)方向要做成大規(guī)模服務(wù)、需要很大投入，我們更愿意交給華為云、微軟云這些平臺(tái)伙伴去規(guī)模化，自己專注在技術(shù)本身。所以「既服務(wù)云廠商、又自己做產(chǎn)品」不是左右手互搏，而是分工。他們做規(guī)模，我們做上限。C 端主要還是 Macaron，對(duì)今天的我們來(lái)說(shuō)，把后端技術(shù)做到足夠好，比急著談收入更重要，技術(shù)真到位了，需求自然會(huì)找上來(lái)。

「模型記憶不應(yīng)該是記事本，應(yīng)該在參數(shù)里」

Q：當(dāng)一個(gè)底座上掛著成千上萬(wàn)個(gè) LoRA，模型與模型之間，會(huì)開(kāi)始發(fā)生什么新的事情？

陳鍇杰：會(huì)開(kāi)始出現(xiàn)分工和協(xié)作。Andrew 講過(guò)很讓我興奮的一個(gè)類比，他覺(jué)得我們正在讓模型長(zhǎng)出「生物學(xué)」。

在生物出現(xiàn)之前，世界上只有化學(xué)，只有原子和分子。從化學(xué)躍遷到生命，最關(guān)鍵的轉(zhuǎn)折點(diǎn)便是細(xì)胞膜。它劃清了內(nèi)外邊界，界定了生命體的本質(zhì)。放到 AI 領(lǐng)域，我們將這種邊界隔離稱作 Isolation。每一個(gè) LoRA 都是獨(dú)立的單元，如同被細(xì)胞膜包裹的個(gè)體。

以前的模型只有「物理和化學(xué)」，拼參數(shù)量、拼數(shù)據(jù)量、拼算力；而當(dāng)你能把模型一個(gè)個(gè)隔離開(kāi)、又讓它們之間高效地交換信息時(shí)，就像單細(xì)胞走向多細(xì)胞生命，分工協(xié)作自然形成，遺傳、進(jìn)化亦隨之發(fā)生。AI 的發(fā)展軌跡，正從純粹的化學(xué)層級(jí)，跨步走入生物演化的長(zhǎng)河。

Q：但 Isolation 聽(tīng)起來(lái)是個(gè)很「工程」的詞，甚至有點(diǎn)平庸。你為什么把它抬到這么高的位置？

陳鍇杰：恰恰因?yàn)樗雌饋?lái)平庸，才容易被低估。

大家談?dòng)洃浀奈磥?lái)，一般會(huì)盯著兩個(gè)很 fancy 的方向，更好的模型結(jié)構(gòu)、更高效的算法。Isolation 排第三，聽(tīng)上去就是個(gè)「把數(shù)據(jù)隔開(kāi)」的臟活。但我前面說(shuō)了，從化學(xué)到生物那一躍，靠的就是細(xì)胞膜這層「隔離」。

而且 Isolation 不只是技術(shù)問(wèn)題，它是這套東西能不能真正進(jìn)入社會(huì)的前提。企業(yè)和企業(yè)之間是有壁壘的，一家公司不可能、也不愿意把自己的長(zhǎng)期記憶交出去，和別人的揉成一個(gè)統(tǒng)一的大模型。

人和人之間更是如此，如果一個(gè)模型同時(shí)握著我和你的長(zhǎng)期記憶，我只要問(wèn)它，就能把你的隱私全套出來(lái)，這是很可怕的。每個(gè)人、每個(gè)企業(yè)的記憶必須被干凈地隔開(kāi)。LoRA 的「一個(gè)底座、無(wú)數(shù)獨(dú)立技能包」，現(xiàn)在看就是實(shí)現(xiàn)這種隔離的一個(gè)很好的方式。

Q：為什么你們認(rèn)定，光靠大模型本身解決不了「記憶」和「?jìng)€(gè)性化」這件事，非得用 LoRA 這種機(jī)制來(lái)補(bǔ)？

陳鍇杰：因?yàn)榻裉熘髁鞯挠洃涀龇ǎ举|(zhì)上是把東西寫(xiě)進(jìn)一個(gè)外部的文檔或數(shù)據(jù)庫(kù)里，你可以理解成模型旁邊掛了一個(gè)不斷變長(zhǎng)的記事本，它記住的是事實(shí)和上下文。

這種方式一開(kāi)始很好用，模型越用越懂你。但它有個(gè)躲不掉的毛病：這個(gè)記事本只增不減，越記越長(zhǎng)，而模型每次能真正「讀進(jìn)腦子」的篇幅是有限的。于是記的東西越多，命中你當(dāng)下需要的那條的概率反而越低，到某個(gè)臨界點(diǎn)，體驗(yàn)會(huì)開(kāi)始往下掉。消費(fèi)者其實(shí)很久沒(méi)用過(guò)一個(gè)「越用越難用」的產(chǎn)品了，微信是越用越好用的，因?yàn)榕笥言絹?lái)越多；但一個(gè)記事本式記憶的助手，可能用到第三周就開(kāi)始變笨。

我們的判斷是，真正的長(zhǎng)期記憶不該寫(xiě)在外部記事本里，而該「訓(xùn)進(jìn)參數(shù)」。寫(xiě)進(jìn) prompt 或文檔的，是臨時(shí)的、外掛的；訓(xùn)進(jìn)參數(shù)的，才是模型自己長(zhǎng)出來(lái)的、穩(wěn)定的能力。LoRA 正好是承載這件事的工具——它把你這個(gè)人的偏好、習(xí)慣、和它打交道的方式，沉淀成模型參數(shù)里的一小塊，而不是一段隨時(shí)可能被擠出窗口的文字。

Q：在「參數(shù)化記憶」這個(gè)大方向下，我們注意到你們其實(shí)不止 LoRA 一條線，還有一個(gè)叫 δ-mem 的東西。一個(gè)是離線訓(xùn)練出來(lái)的參數(shù)技能包，一個(gè)是實(shí)時(shí)更新的在線記憶矩陣。這兩條在你們的記憶體系里怎么分工？還是說(shuō)，你們自己也在賭哪條更對(duì)？

陳鍇杰：這兩條沒(méi)有大家想的那么對(duì)立。δ-mem 也是從 LoRA 這套方法里長(zhǎng)出來(lái)的，本質(zhì)上做的還是同一件事，是把記憶沉淀進(jìn)參數(shù)，而不是掛在外面。只是我們做研發(fā)的過(guò)程中，在架構(gòu)上產(chǎn)生了一些創(chuàng)新的想法，就把它做出來(lái)了，做出來(lái)發(fā)現(xiàn)效果還不錯(cuò)。

Q：如果三五年后，通用底模本身強(qiáng)到能直接理解每一個(gè)用戶，你們這套「為每個(gè)人掛一片 LoRA」的事，是不是就失去意義了？

陳鍇杰：我不這么認(rèn)為，而且原因正是剛才說(shuō)的 Isolation。

最本質(zhì)的一點(diǎn)是，每個(gè)人的數(shù)據(jù)、經(jīng)驗(yàn)和生活經(jīng)歷，是各自保存的——這意味著我的數(shù)據(jù)、和另一個(gè)人的很難也不該被混在一起訓(xùn)進(jìn)同一個(gè)模型，再讓這一個(gè)模型把我們?nèi)齻€(gè)都服務(wù)得很好。

模型本身肯定會(huì)越來(lái)越聰明，但每個(gè)人獨(dú)特的體驗(yàn)，最后還是要靠屬于每個(gè)人的那部分?jǐn)?shù)據(jù)來(lái)支撐，而這些東西最終會(huì)沉淀在屬于你的參數(shù)、屬于你的模型層里。所以哪怕底座越來(lái)越強(qiáng)，「每個(gè)主體有一片只屬于自己、被隔離的參數(shù)」這個(gè)需求不會(huì)消失，反而會(huì)更剛性——底座變強(qiáng)，只會(huì)讓掛在它上面的每一片個(gè)性化技能包更值錢(qián)，而不是把它們抹掉。

Q：這兩年另一個(gè)很熱的詞是 harness，給模型套一層環(huán)境記憶框架。會(huì)不會(huì)「通用模型 + harness」就夠了，根本用不著你們這套「通用模型 + LoRA」？

陳鍇杰：我們其實(shí)自己也做 harness，而且把 harness 和模型訓(xùn)練放在一起，所以反而有更多空間把這件事做好。

在「后訓(xùn)練加 harness」這件事上，我們幾乎和最好的團(tuán)隊(duì)站在同一條線上，同時(shí)又有自己選的方向衣食住行、長(zhǎng)期生活主題。在這個(gè)方向上，把訓(xùn)模型、后訓(xùn)練、持續(xù)學(xué)習(xí)的 LoRA 和 harness 放在一起，我相信能做出最獨(dú)特、最有價(jià)值的產(chǎn)品體驗(yàn)。

所以 harness 的發(fā)展對(duì)我們是好事，因?yàn)槲覀兛梢詾榱?harness 去訓(xùn)模型，很多團(tuán)隊(duì)做不了。說(shuō)具體點(diǎn)，就是在我們的產(chǎn)品體驗(yàn)里有一個(gè)專用模型，你隨手記錄、分享生活碎片，它越來(lái)越懂你，給你推薦需要的餐廳、健身計(jì)劃、減肥計(jì)劃，孩子要買(mǎi)什么，推薦得越來(lái)越準(zhǔn)。這種體驗(yàn)需要模型和 harness 協(xié)同。像 OpenAI 就不會(huì)專門(mén)為這件事去訓(xùn)一個(gè)專用的 harness 和專用的模型。這里就是我們的機(jī)會(huì)，把產(chǎn)品形態(tài)和模型訓(xùn)練放在一起。

Q：如果 LoRA 這條路一兩年、三五年都沒(méi)做出預(yù)期的效果，你們會(huì)掉頭去做別的嗎？還是說(shuō)，你們就認(rèn)定了 LoRA？

陳鍇杰：我們真正三年沒(méi)變的有兩條：我們從第一天開(kāi)始就堅(jiān)持用訓(xùn)練的方法去提升 agent 能力，第二是讓研究和產(chǎn)品一起做 co-design，用真實(shí)產(chǎn)品提供真實(shí)任務(wù)、真實(shí)的失敗案例，再把這些反饋訓(xùn)回模型。今天其實(shí)很少看見(jiàn)優(yōu)秀的模型公司沒(méi)有自己的產(chǎn)品了，反過(guò)來(lái)也挺難的。

Q：你們到底把自己定義成一家什么公司？會(huì)直接說(shuō)自己是「模型公司」嗎？和 Kimi、智譜這些比，區(qū)別在哪？

陳鍇杰：我們成為了一家做 Agent 模型的 Frontier Lab。

但這和大家熟悉的模型公司不太一樣。Kimi、智譜這些更多是從預(yù)訓(xùn)練、從數(shù)據(jù)和基礎(chǔ)設(shè)施出發(fā)，去做通用底模；我們是從用戶需求、從真實(shí)產(chǎn)品里跑出來(lái)的問(wèn)題出發(fā)，去做后訓(xùn)練和持續(xù)學(xué)習(xí)。說(shuō)得直白點(diǎn)，別人是先有模型再找場(chǎng)景，我們是從場(chǎng)景倒推模型。

它會(huì)自然導(dǎo)出一些特性，做后訓(xùn)練天然更貼近用戶，你得對(duì)數(shù)據(jù)有理解，才能做更好的后訓(xùn)練，預(yù)訓(xùn)練是學(xué)習(xí)互聯(lián)網(wǎng)、學(xué)習(xí)人類知識(shí)，后訓(xùn)練是學(xué)習(xí)場(chǎng)景、學(xué)習(xí)在一個(gè)場(chǎng)景里怎么更好地互動(dòng)。連公司規(guī)模也會(huì)不一樣，預(yù)訓(xùn)練和后訓(xùn)練需要的卡大概差半個(gè)量級(jí)、三到十倍，最后的體量也不同。在中國(guó)，以這個(gè)視角去訓(xùn)模型的公司，應(yīng)該是很少的。

外界有時(shí)把我們這種形態(tài)叫 Neolab，它不是傳統(tǒng)意義上的實(shí)驗(yàn)室，而是一種新的 AI 公司組織方式，團(tuán)隊(duì)年輕、人才密度高，目標(biāo)不是包裝一個(gè) AI 應(yīng)用，而是持續(xù)去探技術(shù)上限。海外像 Thinking Machines Lab、Ilya 的 SSI 和李飛飛的 World Labs 都有這個(gè)氣質(zhì)，國(guó)內(nèi)還比較少。我們大概是這個(gè)形態(tài)，技術(shù)深度上和它們有相通之處，但產(chǎn)品和模式開(kāi)始得更早。

Q：你們是什么時(shí)候明確「要做一家后訓(xùn)練公司」的？這中間最大的糾結(jié)是什么，最后怎么決策的？

陳鍇杰：公司誕生時(shí) Andrew 那篇論文就埋下了。它叫 Towards Language Agent Fine-Tuning，走向大語(yǔ)言模型 agent 的后訓(xùn)練。但怎么把它做扎實(shí)是難的，要把研究員號(hào)召起來(lái)，要有足夠的算力和資金支持探索，應(yīng)用方向也得找到答案，不然沒(méi)法在空的環(huán)境里訓(xùn)練。更多是怎么在這兩年半里把它變成現(xiàn)實(shí)。

決定做大規(guī)模強(qiáng)化學(xué)習(xí)這件事真的很難。我們做出來(lái)的時(shí)候，國(guó)內(nèi)可能就四五家，DeepSeek、Kimi、字節(jié)、阿里，然后是我們。當(dāng)時(shí)下決心很難，錢(qián)不多、人也不多，卻要挑戰(zhàn)這么難的事。但你不做強(qiáng)化學(xué)習(xí)，就沒(méi)辦法做后訓(xùn)練，所以最后還是咬牙做了，今天看是正確的選擇。

我能咬緊牙關(guān)，也是因?yàn)槲覀冋J(rèn)定自己是一家做后訓(xùn)練的公司我們對(duì)創(chuàng)業(yè)的偏好是一致的，它應(yīng)該是一家成功的、有技術(shù)價(jià)值的公司。

Q：現(xiàn)在高性能通用模型越來(lái)越閉源，而你們要基于足夠大的模型才效果好。如果未來(lái)模型都閉源、你們甚至成了模型的購(gòu)買(mǎi)方，這件事的利潤(rùn)空間還剩多少？

陳鍇杰：我覺(jué)得總會(huì)有開(kāi)源模型。現(xiàn)在開(kāi)源和閉源效果差異不大，如果哪天差異變得非常大，事情可能會(huì)不一樣；但我覺(jué)得中國(guó)會(huì)持續(xù)有很好的開(kāi)源模型，這點(diǎn)不會(huì)變——只要有第二名，大家還是會(huì)有開(kāi)源的傾向。如果真的都閉源了、我們要去購(gòu)買(mǎi)，那怎么算性價(jià)比、服務(wù)用戶能產(chǎn)生多少價(jià)值，可能就是未來(lái)商業(yè)模式的考量，今天公司還沒(méi)到思考這個(gè)問(wèn)題的階段。也有可能在那種情況下，我們會(huì)像微軟和 OpenAI 當(dāng)初那樣，和某一個(gè)公司深度合作，這也不是沒(méi)有可能。

Q：三年后，你希望大家怎么記住 Mindverse（心洲科技）？有沒(méi)有想過(guò)終點(diǎn)，會(huì)是上市、被收購(gòu)，還是別的？

陳鍇杰：終局在我們心里，是 agent model 和 C 端產(chǎn)品形成一個(gè)飛輪。我們的技術(shù)驅(qū)動(dòng)出別人做不出來(lái)的產(chǎn)品體驗(yàn)，這里面甚至包含硬件和其他形態(tài)，也在和一些公司合作；同時(shí)這套訓(xùn)練和部署的能力會(huì)服務(wù)越來(lái)越多的企業(yè)，2B 這條線也在快速長(zhǎng)。再往遠(yuǎn)看，這個(gè)行業(yè)的終局可能是天文級(jí)的算力被部署到太空里，超過(guò)今天一個(gè)國(guó)家的發(fā)電量，那是個(gè)遙遠(yuǎn)的圖景，剩下的都是過(guò)程。

Q：如果只能在「做一個(gè)改變歷史的研究突破」和「做一家持續(xù)盈利的公司」之間選一個(gè)，你們選哪邊？

陳鍇杰：我們會(huì)選研究突破那一邊。不是不在乎盈利，而是我們相信，只要你在技術(shù)上真的解決了別人解決不了的問(wèn)題，商業(yè)自然會(huì)來(lái)找你；反過(guò)來(lái)不成立。

如果非要落到一個(gè)普通人身上，這條路要是走通了，他的生活會(huì)少掉很多煩惱、多出一些踏實(shí)的幸福。但每個(gè)人的境遇各有不同，悲歡亦是千人千面，而這恰恰就是「?jìng)€(gè)性化」這件事的全部意義，不是給所有人一個(gè)更聰明的模型，而是讓智能真正洞悉每一個(gè)獨(dú)特的靈魂。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.