![]()
Yoky| yokyliu@pingwest.com
周華香 |zhouhuaxiang@pingwest.com
月之暗面的CEO楊植麟問智譜CEO張鵬:
你們最近模型怎么做的,最近怎么漲價了?
這不是什么狗血模型公司商戰(zhàn)的情節(jié),而是中關(guān)村論壇上剛剛結(jié)束的一場論壇里的對話。
3月27日,中關(guān)村論壇最受關(guān)注的一場圓桌論壇,月之暗面創(chuàng)始人楊植麟少有的沒有擔(dān)任分享嘉賓,而是作為主持人,和無問芯穹聯(lián)合創(chuàng)始人兼CEO夏立雪、智譜華章CEO張鵬、小米MiMo大模型負責(zé)人羅福莉及香港大學(xué)助理教授黃超一起討論了今天開源最重要的話題。
一些核心的信息和觀察包括:
1. Token量爆發(fā)式增長帶來的算力結(jié)構(gòu)變革
由OpenClaw帶動的算力結(jié)構(gòu)變革,無問芯穹分享:從一月底開始,Token調(diào)用量每兩周翻一倍,到現(xiàn)在已增長十倍。夏立雪形容:“上一次看到這種增長速度,還是3G時代手機流量快速普及的時候。”
2. OpenClaw拉高了中國開源模型能力的上限
羅福莉認為,OpenClaw的核心價值不僅是改變交互形態(tài),更是把國內(nèi)那些尚未完全逼近閉源模型、但已位于開源模型賽道前列的模型,上限顯著拉高:讓稍弱一點的模型也能達到Claude Code的水平。
3. 基礎(chǔ)設(shè)施應(yīng)該“智能體化”
夏立雪提出,未來基礎(chǔ)設(shè)施本身也應(yīng)該是一個智能體:能自我進化、自我迭代,形成自主組織。它應(yīng)該有一個「CEO」是一個Agent,能根據(jù)AI客戶的需求,自主迭代基礎(chǔ)設(shè)施。
4. 楊植麟Sharp提問張鵬為何漲價?
作為主持人的楊植麟變得更Sharp。他問張鵬兩個問題:GLM最新的迭代思路是什么?你們最近為什么漲價?直接切入商業(yè)和技術(shù)核心。張鵬講道復(fù)雜任務(wù)的Token消耗是簡單問答的十倍甚至百倍,漲價是回歸正常商業(yè)價值的必然。
5.小米的模型是怎么做的?
楊植麟問小米怎么做模型?羅福莉雖未正面回答,但透露了技術(shù)路線:最近的 Hybrid Sparse、Linear Attention 結(jié)構(gòu):DSSA;Kimi 有 KDA,小米的下一代架構(gòu)叫 Highest Bus。這是面向 Agent 時代的新探索。
6. 超長Context是模型自迭代的前提
超長Context是模型“越用越好用”的前提。但推理成本和速度是瓶頸。只有達到10M/100M Context,才能實現(xiàn)真正的模型自迭代:模型在復(fù)雜環(huán)境中依靠超強Context完成自我進化。
7. Harness將作為Agent的關(guān)鍵設(shè)計
Harness(以及Skills體系)被認為是緩解Planning錯誤、提升任務(wù)完成度的關(guān)鍵設(shè)計。從模型層面的Long Context,到Harness層面的Memory/Harness,是讓特定模型支持更復(fù)雜任務(wù)的兩個互補方向。
8、Agent釋放了Chatbot沒有發(fā)揮預(yù)訓(xùn)練模型的上限
原來的 Chatbot 沒有把模型預(yù)訓(xùn)練的能力釋放出來,直到 Agent 框架出現(xiàn)。現(xiàn)在通過外部工具的協(xié)調(diào),包括任務(wù)拆解與驗證機制的引入、多工具鏈的靈活組裝、以及面向長時間任務(wù)的持續(xù)迭代閉環(huán)。模型正在從單純的內(nèi)容生成,邁向能夠自主創(chuàng)造新事物的能力躍遷。
9、現(xiàn)在Skills太亂了,質(zhì)量不夠,需要開源社區(qū)解決
現(xiàn)在 Skills 確實很多,但高質(zhì)量的很少。低質(zhì)量 Skills 會嚴重影響任務(wù)完成度,還存在惡意注入等安全問題。這需要靠整個社區(qū)一起解決:如何把 Skills 發(fā)展得更好,甚至讓 Agent 在執(zhí)行過程中能自主進化出新的 Skills。
10、Agent原生軟件交互:從GUI到CLI
整個生態(tài)從GUI、MCP又轉(zhuǎn)到了CLI模式。未來大部分軟件不一定面向人類,人類需要GUI,但軟件和生態(tài)可能更多面向Agent原生去使用。
以下是圓桌對話實錄:
楊植麟: 很榮幸今天能邀請到各位重磅嘉賓。大家覆蓋了不同層面:從模型層,到底層算力層,再到更上層的 Agent 層。今天也非常高興能和大家一起探討這個話題。我們今天最核心的兩個關(guān)鍵詞,一個是“開源”,一個是“Agent”。
我們先從第一個問題開始,這個問題想請每位嘉賓都談一談。最近最火的無疑是 OpenClaw。大家在日常使用 OpenClaw 或類似產(chǎn)品時,覺得最有想象力、最讓你印象深刻的地方是什么?另外,從技術(shù)角度來看,你們?nèi)绾慰创裉?OpenClaw 以及相關(guān) Agent 的演進?我們先從張鵬開始。
張鵬: 好。先感謝植麟的邀請,也感謝主辦方給我這個機會,和大家一起交流。其實我很早就開始玩 OpenClaw 了。那時候它還不叫 OpenClaw,最早叫 Clawdbot。我自己一直在折騰這些東西,畢竟也是程序員出身,所以對這類產(chǎn)品一直有比較直接的體驗。
![]()
我覺得,這件事給大家?guī)淼淖畲笸黄疲蛘哒f最大的“新鮮感”,在于它不再只是程序員或者極客的專屬工具了。普通人也可以比較方便地使用頂尖模型的能力,尤其是在編程和智能體相關(guān)的能力上。
所以到現(xiàn)在為止,我在和大家交流時,更愿意把 OpenClaw 稱作一種“腳手架”。它提供的是一種可能性:在模型能力之上,搭起了一個足夠穩(wěn)固、足夠方便、同時又足夠靈活的腳手架。大家可以按照自己的意愿,去調(diào)用底層模型提供的各種新能力。很多過去受限于“不會寫代碼”或“缺乏其他專業(yè)技能”而無法實現(xiàn)的想法,今天只需要通過很簡單的交流,就有機會把它真正做出來。對我來說,這件事的沖擊非常大,也讓我重新認識了這類產(chǎn)品的意義。
夏立雪: 其實我最開始使用 OpenClaw 的時候,并不太適應(yīng)。因為我已經(jīng)習(xí)慣了和大模型對話式交互的方式,所以一開始會覺得它的響應(yīng)有點慢。
但后來我意識到,它和過去聊天機器人最大的不同在于:它不是一個只負責(zé)“聊天”的東西,而更像是一個能夠幫我完成大型任務(wù)的人。所以,當(dāng)我后來開始給它布置一些更復(fù)雜的任務(wù)時,我才真正發(fā)現(xiàn),它其實可以完成得很好。
這件事讓我感觸很深。模型從最開始按 Token 進行對話,到今天變成一個 Agent,變成一個“龍蝦”,真正開始幫你完成任務(wù),這極大拓展了我們對 AI 的想象空間。但與此同時,它對整個系統(tǒng)能力的要求也顯著提高了。這也是為什么我一開始會覺得它“有點卡”。
作為基礎(chǔ)設(shè)施底層的廠商,我看到的是,OpenClaw 給整個 AI 背后的大型系統(tǒng)和生態(tài)都帶來了更多機遇和挑戰(zhàn)。因為我們今天所有可調(diào)用的資源,想要支撐這樣一個快速增長的時代,其實還是不夠的。就拿我們公司來說,從一月底開始,我們的 Token 量基本上每兩周就翻一倍,到現(xiàn)在已經(jīng)增長了十倍。上一次看到這種增長速度,還是 3G 時代手機流量快速普及的時候。
所以我現(xiàn)在有一種很強烈的感覺:今天的 Token 用量,就像當(dāng)年大家每個月只有 100MB 手機流量時的那個階段。這就是時代變化的一個信號。在這樣的背景下,我們的資源一定要被更好地優(yōu)化、更好地整合,才能讓每一個人——不只是 AI 行業(yè)里的人,而是整個社會中每一個鮮活的個體——都真正把 AI 能力用起來。
所以,作為基礎(chǔ)設(shè)施領(lǐng)域的從業(yè)者,我對這個時代非常激動,也非常有感觸。我認為這里面還有大量優(yōu)化空間,但我們依然應(yīng)該持續(xù)探索、持續(xù)嘗試。謝謝。
羅福莉: 我自己會把 OpenClaw 看作 Agent 框架層面一個非常革命性、也非常顛覆性的事件。雖然我知道,我身邊很多做深度 Coding 的人,第一選擇可能仍然是 Claude Code,但我相信,只要真正用過 OpenClaw,你就會很明確地感受到,這個框架在很多設(shè)計上其實是領(lǐng)先的。包括最近 Claude Code 的不少更新,在我看來,某種程度上也是在向 OpenClaw 靠近。
![]()
就我自己的使用體驗來說,這個框架給我?guī)淼模嗍且环N“隨時隨地擴展想象力”的可能。最開始,我只能在桌面端延展自己的創(chuàng)意;但后來我發(fā)現(xiàn),OpenClaw 真正的價值在于,它讓你可以在更多場景里持續(xù)推進自己的想法。
我覺得 OpenClaw 最核心的價值主要有兩點。第一,它是開源的。開源非常有利于整個社區(qū)深入?yún)⑴c、持續(xù)改進,并且不斷投入到這個框架之中。第二,像 OpenClaw、Claude Code 這樣的框架,本身就是一個非常重要的前置條件。我認為,它們很大的價值在于,把國內(nèi)那些還沒有完全逼近閉源模型、但已經(jīng)位于開源模型賽道前列的模型,上限顯著拉高了。
在絕大多數(shù)場景里,我們會發(fā)現(xiàn),它的任務(wù)完成度已經(jīng)非常接近 Claude 最新的模型;同時,它又把下限保障得很好。因為它可以依靠一整套 harness 系統(tǒng)、skills 體系,以及很多初步但有效的設(shè)計,來保證任務(wù)完成度和準確率。
所以,從基座模型的角度來看,我認為這類框架一方面保證了基座大模型的下限,另一方面又拉伸了它的上限。除此之外,我覺得它給整個社區(qū)帶來的另一個重要價值,是點燃了大家對于 Agent 層的想象力。大家開始意識到,在大模型之外、也就是更重要的 Agent 這一層,其實還有非常大的空間可以做。
這也是為什么最近社區(qū)里,除了研究員之外,越來越多的人開始參與到這場 AGI 變革中。也有越來越多的人,開始借助更強的框架,比如 harness、scaffold 等等,在一定程度上替代自己的工作、釋放自己的時間,去做更有想象力的事情。
黃超: 我感覺,從交互模式上來看,OpenClaw 這次之所以會爆火,首先是因為它給了大家一種更強的“活人感”。我們其實做這類事情也有一兩年了,但之前像 Cursor、Claude Code 這類 Agent,給人的感覺更多還是“工具感”。
而這一次,我們看到它通過 IM 軟件嵌入的交互方式,讓大家更容易產(chǎn)生一種“這是一個個人 AI”的感覺,也更接近大家想象中的 Jarvis 那樣的概念。我覺得,這是它在交互模式上帶來的一個非常重要的變化。
另外,它帶給大家的另一個啟發(fā),是它的架構(gòu)本身。像 agent loop 這樣一種非常簡單、但又非常高效的框架,再一次被證明是成立的。
同時,它也讓我們重新思考:我們到底需要的是一個 all-in-one、非常強大的智能體,替我們做很多事;還是需要一個更輕量級、像操作系統(tǒng)或腳手架一樣的小管家?
我覺得它帶來的是另一種可能:通過一個像 OpenClaw 這樣的輕量級“龍蝦操作系統(tǒng)”生態(tài),把整個社區(qū)真正調(diào)動起來,撬動生態(tài)里的各種工具。隨著 skills、harness 這些組件越來越豐富,也會有越來越多的人開始設(shè)計更適用于 OpenClaw 這類系統(tǒng)的應(yīng)用,并進一步賦能各行各業(yè)。
黃超: 所以我覺得,它天然就和開源生態(tài)結(jié)合得非常緊密。這兩點,是它給我?guī)淼淖畲髥l(fā)。
楊植麟: 順著剛才大家一直在討論 OpenClaw,我也想接著問張鵬一個問題。我們看到最近智譜發(fā)布了新的 GLM-5-Turbo 模型。我理解,這個模型在相關(guān)能力上也做了很大的增強。能不能請你給大家介紹一下,這個新模型和其他模型相比,有哪些不同之處?另外,我們也觀察到,你們最近有一個提價策略。這個策略反映了怎樣的市場信號?
張鵬: 前兩天我們確實緊急更新了一版。當(dāng)然,這其實是我們整個發(fā)展目標中的一個階段,只是把它提前拿出來了。
這次更新最主要的目標,還是從原來“簡單對話”的能力,進一步走向“真正干活”的能力。剛才各位提到的一點我非常贊同:OpenClaw 讓大家第一次明確感受到,大模型不再只是會聊天,而是真的能幫我做事。
但“干活”這件事背后,對模型能力的要求其實非常高。它需要自己進行長程任務(wù)規(guī)劃,不斷嘗試、不斷壓縮上下文、不斷 debug,甚至還可能涉及多模態(tài)信息處理。
所以,這對模型本身的能力要求,和傳統(tǒng)面向?qū)υ挋C器人的通用模型其實是不一樣的。GLM-5-Turbo 就是在這些方面做了針對性的強化。尤其像剛才提到的這種長程任務(wù)——比如讓它連續(xù)工作 72 個小時,能夠持續(xù)不斷地自行 loop 執(zhí)行——我們在這方面做了很多工作。大家剛才也提到了 Token 消耗量的問題……
前兩天,我們確實緊急更新了一版模型。當(dāng)然,這其實是我們整個發(fā)展目標中的一個階段,只是把它提前拿出來了。
這次更新最主要的目標,還是讓模型從原來的“簡單對話”能力,進一步走向“真正干活”的能力。剛才各位提到的一點我非常贊同:OpenClaw 讓大家第一次明確感受到,大模型不再只是會聊天,而是真的能夠幫人做事。
但“干活”這件事背后,對模型能力的要求其實非常高。它需要自己進行長程任務(wù)規(guī)劃,不斷嘗試、不斷壓縮上下文、不斷調(diào)試,甚至還可能涉及多模態(tài)信息處理。所以,這對模型本身能力的要求,和傳統(tǒng)面向?qū)υ挋C器人的通用模型并不完全一樣。GLM-5-Turbo 就是在這些方面做了針對性的強化。尤其是剛才提到的長程任務(wù),比如讓模型連續(xù)工作 72 個小時,并且能夠持續(xù)自主地 loop 執(zhí)行,我們在這方面做了很多工作。
大家剛才也提到了 Token 消耗量的問題。讓一個更聰明的模型去執(zhí)行更復(fù)雜的任務(wù),資源消耗其實是非常巨大的。普通用戶未必能直觀感受到這一點,但最終一定會體現(xiàn)在賬單上。所以,我們也針對這方面做了一些優(yōu)化,讓模型在面對復(fù)雜任務(wù)時,能夠以更高的效率完成執(zhí)行。這是這次優(yōu)化的幾個重點方向。
但從本質(zhì)上來說,它的模型架構(gòu)仍然是一種多任務(wù)協(xié)同的通用模型架構(gòu),只是在能力側(cè)做了更有針對性的增強。至于提價,這件事也比較容易解釋。因為現(xiàn)在已經(jīng)不是簡單地問一個問題、模型給出一個回答了。它背后的思考和推理鏈路會變得很長,還會通過寫代碼的方式與底層基礎(chǔ)設(shè)施交互,不斷調(diào)試,并隨時修正自己的錯誤。
這意味著整體消耗量會非常大。完成一個任務(wù)所需要的 Token 量,可能是回答一個簡單問題時的十倍,甚至百倍。因此,價格上相應(yīng)做一些調(diào)整,本質(zhì)上是成本變化的自然結(jié)果。模型更大了,能力更強了,對應(yīng)的服務(wù)成本也提高了,所以我們希望把它逐步拉回到一個正常的商業(yè)價值區(qū)間。
因為長期依賴低價競爭,其實并不利于整個行業(yè)的發(fā)展。這也是我們的一個重要考量。我們希望通過這樣的方式,在商業(yè)化路徑上形成一個更健康的閉環(huán),持續(xù)優(yōu)化模型能力,并更長期、穩(wěn)定地為大家提供更好的模型和相應(yīng)的 Token 服務(wù)。
楊植麟: 非常好的分享。其實現(xiàn)在開源模型和推理算力正在逐漸形成一個新的生態(tài)。各種各樣的開源模型,可以部署在不同的推理算力平臺上,為用戶提供更多價值。隨著 Token 量的爆發(fā),整個行業(yè)也可能正在從訓(xùn)練時代逐步走向推理時代。所以我想請教一下立雪,從基礎(chǔ)設(shè)施層面來看,這個推理時代對無問芯穹意味著什么?
夏立雪: 感謝植麟。確實,因為我們是一家誕生于 AI 時代的基礎(chǔ)設(shè)施廠商,現(xiàn)在也在為 Kimi、智譜等公司提供服務(wù),也在和 MiniMax 等團隊合作,幫助大家把我們這樣的“Token 工廠”更高效地用起來。同時,我們也在和很多高校、科研院所合作。
所以,我們其實一直都在思考一件事:AGI 時代所需要的基礎(chǔ)設(shè)施,到底應(yīng)該是什么樣子。以及,我們應(yīng)該怎樣一步一步在這個過程中去實現(xiàn)它、推演它。對這件事,我們已經(jīng)做了比較充分的準備,也看到了短期、中期和長期幾個不同階段需要解決的問題。
當(dāng)前最現(xiàn)實、最緊迫的問題,其實就是剛才大家聊到的:像 OpenClaw 這類 Agent 產(chǎn)品帶動了整個 Token 需求的暴增,而這種暴增對系統(tǒng)效率提出了更高要求。從某種意義上說,價格上漲也是在這種需求壓力之下形成的一種應(yīng)對方式。
我們一直以來都是從軟硬件協(xié)同的角度去做布局和解決方案設(shè)計。包括我們接入了幾乎所有能看到的主流計算芯片,把國內(nèi)十幾種芯片、幾十個不同的算力集群統(tǒng)一連接起來。這樣,我們就能夠更好地解決 AI 系統(tǒng)中算力資源緊缺的問題。因為在資源不足的時候,最好的辦法,第一是把所有可用資源都盡可能用起來;第二是讓每一份算力都真正用在刀刃上,讓每一份資源都發(fā)揮出最大的轉(zhuǎn)化效率和價值。
所以,在當(dāng)下這個階段,我們要解決的核心問題,就是如何進一步打造一個更高效的 Token 工廠。圍繞這一點,我們做了很多優(yōu)化。比如,讓模型與硬件、顯存等各類資源實現(xiàn)最優(yōu)適配;也在持續(xù)觀察,最新的模型結(jié)構(gòu)與硬件結(jié)構(gòu)之間,是否還能形成更深層次的“化學(xué)反應(yīng)”。
但如果只解決眼前的效率問題,其實還不夠。我們現(xiàn)在做的,本質(zhì)上還是一個標準化的 Token 工廠;可面向 Agent 時代,我們認為這遠遠不夠。因為正如剛才大家所說,Agent 更像是一個“人”,我們可以直接把任務(wù)交給它去完成。
而我一直非常堅定地認為,當(dāng)前很多云計算時代的基礎(chǔ)設(shè)施,本質(zhì)上還是為程序和人類工程師設(shè)計的,而不是為 AI 設(shè)計的。它更像是:我們先做出一套基礎(chǔ)設(shè)施,再提供一個給人類工程師使用的接口,然后再在外面包一層,接入 Agent。這種方式,其實是在用人類操作系統(tǒng)的邏輯,限制 Agent 的發(fā)揮空間。
我舉個例子。Agent 可以在秒級甚至毫秒級完成思考并發(fā)起任務(wù),但我們過去很多底層 API 和系統(tǒng)能力,其實并沒有為這種調(diào)用頻率做好準備。因為對人類來說,發(fā)起一個任務(wù)通常是分鐘級別的,而不是毫秒級的。所以,我們需要新的能力來適配這種變化。我們把它理解為一種面向 Agent 的基礎(chǔ)設(shè)施,也就是要打造一個更智能化的調(diào)度引擎。這正是我們現(xiàn)在在做的事情。
再往更長遠的未來看,當(dāng)真正的 AGI 時代到來時,我們甚至認為,連基礎(chǔ)設(shè)施本身都應(yīng)該是一個智能體。也就是說,我們正在打造的這套工廠,本身也應(yīng)該具備自我進化、自我迭代的能力,能夠形成一個自主運轉(zhuǎn)的組織。可以把它理解為:這個系統(tǒng)內(nèi)部甚至?xí)幸粋€“CEO”,而這個 CEO 本身也是一個 Agent。它會負責(zé)管理整個基礎(chǔ)設(shè)施,并根據(jù) AI 客戶的需求,自主提出需求、迭代能力、優(yōu)化系統(tǒng)。
只有這樣,AI 與基礎(chǔ)設(shè)施之間才能形成更好的耦合。我們也在做一些相關(guān)探索,比如讓 Agent 與 Agent 之間可以更高效地通信,實現(xiàn) cache-to-cache 這類能力。我們一直在思考,基礎(chǔ)設(shè)施的發(fā)展不應(yīng)該是一個割裂的過程,不應(yīng)該只是“我接收一個需求,再去機械執(zhí)行”,而應(yīng)該不斷產(chǎn)生更豐富的化學(xué)反應(yīng)。
我認為,只有做到這一點,才真正實現(xiàn)了所謂的軟硬協(xié)同,也真正實現(xiàn)了算法與基礎(chǔ)設(shè)施的協(xié)同。這也是我一直想去完成的一件事。謝謝。
楊植麟: 接下來想問問福莉。小米最近發(fā)布了新的模型,也在持續(xù)推進開源和背后的相關(guān)技術(shù),我覺得這對整個社區(qū)做出了很大的貢獻。所以也想請你談?wù)劊阌X得小米在做大模型這件事上,有什么獨特的優(yōu)勢?
羅福莉: 我想先把“小米做大模型有什么獨特優(yōu)勢”這個問題放一放。我更想談的,其實是中國大模型團隊在做基座模型這件事上的整體優(yōu)勢,因為我覺得這個話題更有普遍價值。
大概從兩年前開始,我就已經(jīng)看到,中國的基座模型團隊在這個方向上出現(xiàn)了非常重要的突破。這個突破在于:在有限算力,尤其是在 NVLink 互聯(lián)帶寬受限的情況下,我們?nèi)绾瓮黄七@些硬件條件帶來的限制,去做一些看起來像是在為效率妥協(xié)、但本質(zhì)上卻是模型結(jié)構(gòu)創(chuàng)新的工作。比如 DeepSeek V2、V3 系列中的細粒度 MoE 和 MLA 等。后來我們看到,這類創(chuàng)新其實帶來了一場真正的變化。
這個變化在于:當(dāng)算力預(yù)算相對固定的時候,我們?nèi)绾伟淹瑯右环菟懔λ苓_到的智能水平推到最高。我覺得,DeepSeek 的出現(xiàn),給了國內(nèi)所有基座模型團隊很大的勇氣和信心。雖然到了今天,我們自己的國產(chǎn)芯片,無論是推理芯片還是訓(xùn)練芯片,都已經(jīng)在不斷進步,但正是在此前那種受限環(huán)境下,反而逼出了我們對“更高訓(xùn)練效率、更低推理成本”的全新探索。
比如最近出現(xiàn)的 hybrid sparse、linear attention 等結(jié)構(gòu)方向。包括 DeepSeek 的相關(guān)探索,Kimi 的相關(guān)方案,以及小米面向下一代模型結(jié)構(gòu)所做的一些研究。它們都指向同一個問題:當(dāng)我們進入 Agent 時代之后,模型結(jié)構(gòu)到底應(yīng)該如何進一步演化。
我為什么認為結(jié)構(gòu)創(chuàng)新如此重要?因為剛才我們一直在討論 OpenClaw。只要你真正用過 OpenClaw,就會發(fā)現(xiàn)它往往是“越用越好用,越用越聰明”。而它成立的一個前提,就是推理階段必須擁有足夠長的 context。Long context 其實已經(jīng)是一個被討論了很久的話題,但直到今天,大家才真正開始意識到:不是模型做不到百萬級甚至千萬級上下文,而是如果推理成本太高、速度太慢,這件事就沒有現(xiàn)實價值。
所以,真正關(guān)鍵的問題是:你能不能在 100 萬甚至 1000 萬級 context 的情況下,把推理成本打下來,把速度提上去。只有在這種前提下,用戶才會愿意把真正具有高生產(chǎn)力價值的任務(wù)交給模型,模型也才有機會在長上下文環(huán)境中完成更高復(fù)雜度的任務(wù)。甚至可以說,只有到了 1000 萬級、上億級上下文的階段,我們才可能真正看到模型的自我迭代能力被釋放出來。
所謂模型的自我迭代,就是它能夠在一個復(fù)雜環(huán)境里,依靠超強的上下文能力,完成對自身的持續(xù)進化。這個進化既可能發(fā)生在框架層,也可能發(fā)生在模型參數(shù)層。因為在我看來,長上下文本身其實就是對參數(shù)能力的一種外延和增強。
所以,未來真正的競爭會是一個全方位的競爭:一方面,你能不能做出原生適配長上下文的模型架構(gòu);另一方面,你能不能在推理側(cè)真正把 long-context efficiency 做出來。除此之外,還包括你能否在預(yù)訓(xùn)練階段就把這類架構(gòu)打牢,以及在后訓(xùn)練階段,能不能把模型在真實長程任務(wù)上的穩(wěn)定性和能力上限繼續(xù)往上推。
我們現(xiàn)在也在思考,怎樣構(gòu)造更有效的學(xué)習(xí)算法;怎樣采集在 100 萬、1000 萬、甚至更長上下文里,真正具有長期依賴關(guān)系的文本;以及怎樣結(jié)合復(fù)雜環(huán)境,生成高質(zhì)量的軌跡數(shù)據(jù)。這些,都是我們正在持續(xù)推進的事情。
但我能看到的更長期趨勢是:隨著大模型本身在飛速進步,再疊加 Agent 框架的加持,推理需求一定會繼續(xù)迅速增長。就像剛才立雪提到的,過去一段時間里,Token 需求已經(jīng)增長了接近十倍。那么今年,整個 Token 需求會不會增長到一百倍?這其實已經(jīng)把競爭帶到了另一個維度:不僅是模型之間的競爭,也是算力、推理芯片,甚至能源層面的競爭。
所以,如果大家繼續(xù)深入思考這個問題,我相信我也會從各位身上學(xué)到更多。
楊植麟: 對,非常有 insight 的分享。下面想問一下黃超。你也開發(fā)了一些非常有影響力的 Agent 項目,包括像 nanobrowser 這樣的項目,在社區(qū)里也積累了很多用戶和粉絲。想請你談?wù)劊瑥募夹g(shù)或者應(yīng)用層面來看,接下來有哪些值得重點關(guān)注的方向?
黃超: 感謝植麟。我覺得,如果把 Agent 技術(shù)抽象出來,核心大致有幾個模塊:planning、memory 和 tool use。
先說 planning。我覺得現(xiàn)在最大的問題,仍然出現(xiàn)在長程任務(wù)和復(fù)雜上下文上。比如一個任務(wù)可能需要 500 步,甚至更多步驟,很多模型未必能夠做好規(guī)劃。我認為,本質(zhì)上還是因為模型不具備足夠的隱性知識。尤其是在很多復(fù)雜的垂直領(lǐng)域,這個問題會更加突出。未來一個很重要的方向,是把已有的復(fù)雜任務(wù)知識更系統(tǒng)地固化到模型中。
當(dāng)然,從 skills 的角度來看,包括 harness 在內(nèi)的很多機制,本質(zhì)上也是在緩解 planning 過程中帶來的錯誤。因為高質(zhì)量的 skill,其實就是在幫助模型完成一些本來較難的任務(wù)。這是 planning 這一部分。
再說 memory。我的感受是,memory 始終會面臨一些根本性問題,比如信息壓縮不準確、表達失真等。隨著長程任務(wù)和復(fù)雜場景越來越多,memory 的需求也會迅速膨脹,這本身就會給整個系統(tǒng)帶來很大壓力。
但現(xiàn)在,包括各種“龍蝦”在內(nèi),很多系統(tǒng)采用的 memory 方案其實都還比較簡單,例如基于文件系統(tǒng)、Markdown 文件,或者通過共享文件的方式來管理 memory。我覺得未來的 memory 很可能會走向分層設(shè)計,同時也要想辦法讓它更加通用。因為說實話,當(dāng)前的 memory 機制其實很難做到真正的通用。比如 coding 場景、deep research 場景、多模態(tài)場景,它們的數(shù)據(jù)模態(tài)差異都非常大。如何針對這些不同類型的 memory 做更好的檢索和索引,并進一步提高效率,我覺得這會一直是一個關(guān)鍵方向。
另外一點是,OpenClaw 這類系統(tǒng)把創(chuàng)建 Agent 的門檻大幅降低之后,未來可能不會只有一個 Agent。比如我們已經(jīng)看到,Kimi 也在嘗試 Agent Swarm 這樣的機制。也就是說,未來每個人可能擁有的不是一個“龍蝦”,而是一群“龍蝦”。
而一群 Agent 所帶來的上下文規(guī)模,相比單個 Agent 會大得多。這也會進一步加大 memory 的壓力。現(xiàn)在其實還沒有一套特別成熟的機制,去管理這種多 Agent 帶來的海量上下文。尤其是在復(fù)雜 coding、科研發(fā)現(xiàn)這類任務(wù)中,不管是對模型本身,還是對整個 Agent 架構(gòu),壓力都會很大。
最后是 tool use。我覺得在這一塊,現(xiàn)在整個 skill 生態(tài)仍然存在不少問題。MCP 當(dāng)年暴露出來的一些問題,其實在今天依然存在,比如質(zhì)量缺乏保障,以及潛在的安全風(fēng)險。現(xiàn)在雖然 skill 很多,但高質(zhì)量的 skill 其實仍然偏少。低質(zhì)量的 skill 會顯著影響 Agent 完成任務(wù)的效果;與此同時,skill 本身也可能存在惡意注入等問題。
所以在這一塊,我覺得很大程度上還是需要依靠整個社區(qū),一起把 skill 生態(tài)建設(shè)得更好。甚至進一步思考,怎樣讓系統(tǒng)在執(zhí)行過程中演化出新的 skill。總的來說,我覺得無論是 planning、memory,還是 skill,都是當(dāng)前一線最現(xiàn)實的痛點,也都是未來非常重要的演進方向。
![]()
楊植麟: 可以看到,剛才兩位嘉賓其實是從不同視角討論了同一個問題。隨著任務(wù)復(fù)雜度不斷提升,上下文規(guī)模也會迅速膨脹。一方面,模型層面可以繼續(xù)提升原生上下文長度;另一方面,在 Agent 和 harness 層面,像剛才提到的 planning、memory 以及各類輔助機制,也能夠幫助模型在既有能力邊界內(nèi)支撐更復(fù)雜的任務(wù)。我覺得這兩個方向接下來會進一步產(chǎn)生化學(xué)反應(yīng),從而提升系統(tǒng)完成復(fù)雜任務(wù)的能力。
最后,我們做一個開放式展望。想請各位用一個詞,來描述接下來 12 個月大模型發(fā)展的趨勢,以及你們的期待。
黃超: 那這次先從我開始。說實話,在 AI 領(lǐng)域,12 個月聽起來都已經(jīng)很遙遠了,甚至很難判斷 12 個月之后會發(fā)展成什么樣。但如果一定要用一個詞來概括,我會選“生態(tài)”。
我覺得現(xiàn)在 OpenClaw 讓整個社區(qū)非常活躍,這是一個很好的開始。但未來 Agent 真正重要的,不只是成為個人助手,而是要進一步轉(zhuǎn)化為真正能一起工作的“打工人”,或者說 coworker。現(xiàn)在很多人使用它,可能更多還是出于新鮮感,或者覺得好玩。但未來,只有當(dāng)這些“龍蝦”真正沉淀下來,成為大家穩(wěn)定的生產(chǎn)工具、協(xié)作伙伴,這件事才算真正跑通。
而這件事離不開生態(tài)的共同建設(shè)。開源在這里面非常重要。因為只有把相關(guān)的技術(shù)探索、模型能力、工具能力持續(xù)開放出來,整個生態(tài)才可能共同推進。無論是模型本身的迭代,還是 skills 平臺的演進,或者各種工具鏈的完善,我覺得都需要圍繞 Agent 去建立一個更好的生態(tài)。
從我自己的觀察來看,未來一個很明顯的問題是:軟件到底還是不是主要給人用的?我覺得未必。未來很多軟件可能不再以人類為中心,因為人類需要 GUI,但很多系統(tǒng)可能會越來越偏向 Agent-native,也就是原生面向 Agent 使用。
這樣一來,人類可能只會保留那些真正讓自己感到愉悅的交互,而大量真正執(zhí)行性的工作,會逐漸轉(zhuǎn)移給 Agent。所以我覺得,現(xiàn)在整個生態(tài)其實已經(jīng)在發(fā)生變化:從 GUI、MCP,逐漸轉(zhuǎn)向 CLI 這種模式。接下來,不管是軟件系統(tǒng)、數(shù)據(jù)結(jié)構(gòu),還是各種技術(shù)棧,本質(zhì)上都需要朝著 Agent-native 的方向重構(gòu)。只有這樣,整個 Agent 生態(tài)的發(fā)展才會更加豐富。
羅福莉: 我覺得,把這個問題收縮到一年的尺度非常有意義。因為如果把時間拉到五年,在我對 AGI 的理解里,很多事情幾乎已經(jīng)是必然會發(fā)生的了。所以,如果要用一個詞來概括接下來一年里 AGI 進程中最關(guān)鍵的一件事,我會選“進化”。
![]()
雖然這個詞聽起來有一點抽象,但我最近對它有了更具體、也更務(wù)實的理解。過去一年,大家已經(jīng)多次提到這件事,但直到最近,我才真正開始感受到,“自進化”這件事其實已經(jīng)開始具備比較可行的實現(xiàn)路徑。
其中一個很重要的原因在于,隨著模型能力增強,我們逐漸意識到,在過去那種單純對話式的范式下,預(yù)訓(xùn)練模型的上限其實并沒有被真正發(fā)揮出來。而今天,這個上限正在被 Agent 框架逐步激活。
我們現(xiàn)在已經(jīng)摸到這個邊界了。尤其是當(dāng)模型開始執(zhí)行更長時間的任務(wù)時,我們會發(fā)現(xiàn),它其實能夠自己學(xué)習(xí)、自己進化。一個很簡單的實驗是:在現(xiàn)有框架上,疊加一個可驗證的目標約束,再給它設(shè)置一個 loop,讓它持續(xù)圍繞這個目標進行迭代優(yōu)化。你就會發(fā)現(xiàn),模型會不斷拿出更優(yōu)的方案。
如果這種自進化機制可以持續(xù)運轉(zhuǎn),那么它的潛力會非常大。現(xiàn)在其實很多國內(nèi)模型已經(jīng)能夠穩(wěn)定跑上一到兩天了。當(dāng)然,這和任務(wù)難度有關(guān)。比如在一些科研任務(wù)中,模型去探索更優(yōu)的結(jié)構(gòu)設(shè)計,因為這類任務(wù)存在明確的評估標準,例如更低的 PPL,這就意味著它具備可驗證性。在這種確定性較強的任務(wù)上,我們已經(jīng)看到,模型能夠自主優(yōu)化并持續(xù)執(zhí)行兩三天。
所以從我的角度來看,自進化是一個真正可能創(chuàng)造新東西的方向。它不是簡單地替代人類已有的生產(chǎn)力,而是像頂尖科學(xué)家一樣,去探索世界上原本還不存在的東西。一年前,我還會覺得這個過程大概要三到五年;但到了最近,我反而覺得這個時間窗口應(yīng)該縮短到一到兩年。
也就是說,我們可能很快就能看到:在一個很強的自進化 Agent 框架加持下,大模型對科學(xué)研究帶來至少指數(shù)級的加速。因為我最近已經(jīng)很明顯地觀察到,我們組內(nèi)做大模型研究的同學(xué),他們的 workflow 本身就是高度不確定、又高度依賴創(chuàng)造力的。而在這種情況下,借助 Claude Code,再結(jié)合非常頂尖的模型,研究效率基本上已經(jīng)可以提升接近十倍。
所以我非常期待這種范式未來能夠輻射到更廣泛的學(xué)科和領(lǐng)域。我覺得,這會是一件非常重要的事情。
夏立雪: 我的關(guān)鍵詞是“可持續(xù)”。因為我看到,整個行業(yè)的發(fā)展仍處在一個長期演進的過程中,我們也希望它具備長久的生命力。從基礎(chǔ)設(shè)施角度看,一個非常現(xiàn)實的問題是,資源終究是有限的,就像我們過去談“可持續(xù)發(fā)展”時反復(fù)強調(diào)的那樣。
我們現(xiàn)在作為一家 Token 工廠,能否持續(xù)、穩(wěn)定、大規(guī)模地向外提供可用的 Token,讓頂尖模型真正持續(xù)服務(wù)更多下游場景,這是我最關(guān)注的問題。因此,我們也需要把視角進一步放寬到整個生態(tài):從最早的能源轉(zhuǎn)化,到算力,再到 Token,最終轉(zhuǎn)化為 GDP,形成一條可以持續(xù)進行經(jīng)濟化迭代的完整鏈路。
而且,我們不只是要把國內(nèi)各種算力資源真正用起來,也在嘗試把這些能力輸出到海外,讓全球資源能夠更好地打通和整合。所以我所說的“可持續(xù)”,其實也包括把具有中國特色的 Token 經(jīng)濟學(xué)真正做起來。過去我們講的是 Made in China。大家會發(fā)現(xiàn),我們能夠把中國具備成本優(yōu)勢的制造能力,轉(zhuǎn)化為優(yōu)質(zhì)商品并輸出到全球。
今天我們想做的,有點像 AI Made in China。也就是說,把中國在能源等方面的優(yōu)勢,通過 Token 工廠持續(xù)轉(zhuǎn)化為高質(zhì)量的 Token,并輸出到全球,最終成為全球的 Token 工廠。這是我希望在今年看到的,中國為世界人工智能發(fā)展帶來的價值。
張鵬: 我盡量簡短一點。前面大家可能都在仰望星空,那我就稍微落地一些。我認為,未來 12 個月最關(guān)鍵的問題,可能還是算力。
因為剛才大家已經(jīng)提到,不管是模型能力,還是智能體框架,確實都在顯著提升創(chuàng)造力和生產(chǎn)效率,很多場景下甚至可以帶來十倍級的效率提升。但前提是,大家得用得起,也用得上。不能因為算力不夠,用戶提了一個問題,結(jié)果模型想了半天還給不出答案,這顯然是不行的。
也正因為如此,我們很多研究進展,包括很多原本想做的事情,事實上都會受到制約。前兩年業(yè)界有一句話,叫“講卡傷感情,沒卡沒感情”。我覺得,今天某種程度上又回到了這個階段,只不過這一次的背景已經(jīng)不一樣了。
因為我們現(xiàn)在正在真正轉(zhuǎn)向推理階段,而之所以會轉(zhuǎn)向推理階段,是因為需求正在爆發(fā),而且是十倍、百倍地爆發(fā)。剛才也提到,過去一段時間需求可能已經(jīng)增長了十倍,但真實需求也許是一百倍,那還有大量需求沒有被滿足。這個問題怎么辦?我想,這可能需要我們一起想辦法。謝謝。
楊植麟: 好,感謝各位的精彩分享,謝謝大家。
點個“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.