无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁

網(wǎng)易新聞
網(wǎng)易公開課
網(wǎng)易紅彩
網(wǎng)易嚴(yán)選
郵箱大師
網(wǎng)易云課堂

注冊免費(fèi)郵箱

注冊VIP郵箱（特權(quán)郵箱，付費(fèi)）
免費(fèi)下載網(wǎng)易官方手機(jī)郵箱應(yīng)用

移動(dòng)端
網(wǎng)易公開課
網(wǎng)易嚴(yán)選
支付
郵箱

網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

AI agent 能算清自己的賬單嗎？一次關(guān)于 token 消耗的系統(tǒng)分析｜白龍駒

2026-06-11 14:34:12　來源: 集智俱樂部

北京舉報(bào)

0

分享至

導(dǎo)語

過去一年，AI coding agent 的能力突飛猛進(jìn)，但伴隨而來的，是迅速膨脹且難以預(yù)測的 token 成本。來自密歇根大學(xué)、斯坦福大學(xué)等機(jī)構(gòu)的研究者首次系統(tǒng)分析了 8 個(gè)前沿大模型在 SWE-bench Verified 上的完整運(yùn)行軌跡，揭示了一個(gè)出人意料的事實(shí)：Agent 的主要成本并非來自輸出，而是來自不斷累積的輸入上下文；更高的開銷也未必帶來更好的結(jié)果，而當(dāng)前最先進(jìn)的模型甚至難以準(zhǔn)確預(yù)測自己將消耗多少資源。這項(xiàng)研究將目光從“模型能否完成任務(wù)”轉(zhuǎn)向“模型如何使用計(jì)算資源”，為理解 Agent 的效率、成本與自我規(guī)劃能力提供了新的視角。

關(guān)鍵詞：智能體、Token成本、效率評估、成本預(yù)測、預(yù)算感知、自我認(rèn)知

白龍駒丨作者

趙思怡丨審校

論文題目： How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks 論文地址： https://arxiv.org/pdf/2604.22750

發(fā)表時(shí)間：2026 年 4 月 24 日

論文來源：arXiv

引子：一筆看不見的賬單

想象這樣一個(gè)場景：你雇了一位助理幫你修復(fù)一個(gè)軟件 bug。他埋頭工作，翻閱文檔、反復(fù)試錯(cuò)、運(yùn)行測試，幾個(gè)小時(shí)后交出成果，然后遞給你一張賬單。而在此之前，你完全不知道這次要花多少錢，要花多長時(shí)間，甚至不知道他能不能把這個(gè)任務(wù)成功完成。更糟的是，即便他最終沒修好，這筆錢你也得照付。

這正是今天我們與 AI 智能體打交道的真實(shí)寫照。從 Claude Code、Codex 到 Cursor，這類能夠自主讀取代碼庫、調(diào)用工具、迭代修改的智能體，已經(jīng)迅速滲透進(jìn)真實(shí)的軟件工程流程。過去一年里，它們在權(quán)威評測 SWE-bench Verified 上的準(zhǔn)確率被一路推高到 78% 以上，進(jìn)步之快令人側(cè)目。

但伴隨能力躍升的，是一筆越來越沉重、也越來越難以看清的賬單。任何用過這類工具的人都熟悉那幾句抱怨：“為什么這么簡單直接的一個(gè)問題都要反復(fù)調(diào)試，調(diào)用工具這么多輪？”，“換了一個(gè)backbone模型之后怎么效率和能力差別這么大？”，“我的額度怎么又用完了？”

這些抱怨背后，藏著一個(gè)尚未被系統(tǒng)研究的問題： AI agent 到底把錢（也就是 token）花在了哪里？不同的backbone模型在效率和能力上有哪些差異？我們能不能在它動(dòng)手之前，就預(yù)知這筆開銷？

來自密歇根大學(xué)、斯坦福大學(xué)等機(jī)構(gòu)的研究者，借助開源的 OpenHands coding agent 框架，分析了 8 個(gè)前沿大模型在 SWE-bench Verified 上的完整運(yùn)行軌跡，首次就“agent成本從何而來、不同模型有何不同、成本能否預(yù)測”3個(gè)問題給出了系統(tǒng)性的答案。

一、為什么agent任務(wù)如此昂貴？

要理解這筆賬單，首先得知道它和其他任務(wù)場景有哪些不同。

研究者比較了三類與代碼相關(guān)的任務(wù)：代碼推理（針對單個(gè)代碼問題的一次性推理）、代碼聊天（圍繞代碼的多輪對話），以及 agentic 代碼任務(wù)（agent 在真實(shí)代碼庫中自主解決 SWE-bench 問題）。這三類任務(wù)對應(yīng)著能力遞進(jìn)的三個(gè)層次，所要應(yīng)對的問題也越來越復(fù)雜：代碼推理往往只用于預(yù)測某個(gè)函數(shù)的輸出，代碼聊天則輔助人類理解設(shè)計(jì)、調(diào)整代碼，而 coding agent 已經(jīng)能夠全自動(dòng)地解決問題。能力上的層層遞進(jìn)，也最終反映到 token 消耗上，三類任務(wù)在數(shù)量級上拉開了驚人的差距：無論是平均 token 消耗、平均花費(fèi)，還是輸入與輸出 token 的比例，agentic 任務(wù)都呈指數(shù)級地高于另外兩類。一個(gè)典型的 agentic 編碼任務(wù)平均消耗約 417 萬 token，而一次代碼推理任務(wù)只需約 1200 token——相差近千倍。

更讓人好奇的是這些token花在了哪里。人們直覺上會(huì)認(rèn)為，AI 的成本主要來自它"說"的話，也就是生成的輸出。但數(shù)據(jù)揭示了相反的事實(shí)：真正吞噬成本的是輸入，而非輸出。在 agentic代碼任務(wù)中，輸入與輸出的 token 比高達(dá) 154:1。

圖1：Agentic Coding任務(wù)所消耗的token數(shù)量明顯多于代碼推理（無工具交互的單輪問題求解）和代碼對話（關(guān)于編程問題的多輪對話）任務(wù)，這一差異主要由輸入token數(shù)量的增加所驅(qū)動(dòng)。

這一現(xiàn)象，源于 agent 獨(dú)特的多步工作方式。它并非一問一答，而是在多輪交互中不斷累積上下文。盡管學(xué)界已有不少關(guān)于 agent 記憶管理的探索（如智能記憶壓縮、記憶檢索、滑動(dòng)上下文窗口等），但當(dāng)前產(chǎn)品級的 coding agent 大多仍采用最樸素的"全盤累積"策略：每一次代碼查詢、每一份文件內(nèi)容、每一條工具返回的結(jié)果，都會(huì)被追加進(jìn)對話歷史，并在下一輪原封不動(dòng)地重新喂給模型，直到逼近上下文長度上限，才開始壓縮記憶。任務(wù)越長，這個(gè)雪球就滾得越大。即便廠商普遍啟用了上下文緩存（caching）來削減重復(fù)處理的成本，輸入端依然是開銷的絕對主力。

這意味著一件重要的事：agentic 任務(wù)的成本結(jié)構(gòu)，與我們熟悉的聊天、推理任務(wù)有著本質(zhì)的不同。理解 agent 的開銷，不能照搬舊有的經(jīng)驗(yàn)。

二、花得越多，做得越好嗎

既然 agent 這么燒錢，一個(gè)自然的期待是：多花的錢總該買來更好的結(jié)果吧？研究的第二個(gè)發(fā)現(xiàn)，卻給這個(gè)樸素的直覺潑了一盆冷水。

首先，token 消耗本身就極不穩(wěn)定。研究者統(tǒng)計(jì)了 500 個(gè)問題的平均消耗并排序后發(fā)現(xiàn)，最貴的任務(wù)比最便宜的多消耗約 700 萬 token；而且越貴的任務(wù)，消耗的波動(dòng)也越大。更讓人注意的是同一任務(wù)的重復(fù)運(yùn)行—— 同樣的問題、同樣的模型，跑四次，最貴的那次仍可能是最便宜那次的兩倍左右。換句話說，agent 的開銷帶著一種內(nèi)在的隨機(jī)性，哪怕面對完全相同的問題，你也無法篤定它這次會(huì)花多少。

圖2: 跨四次運(yùn)行和八個(gè)模型的逐實(shí)例均值 ±1 個(gè)標(biāo)準(zhǔn)差，實(shí)例按均值成本排序；右側(cè)的重尾分布表明，高消耗問題同時(shí)也具有最大的跨運(yùn)行方差。

圖3: 跨500個(gè)實(shí)例平均的逐模型最大/最小消耗比，誤差棒顯示跨實(shí)例的 ±1 個(gè)標(biāo)準(zhǔn)差。綜合來看，這些結(jié)果表明 Token 消耗具有高度變異性，使得預(yù)先預(yù)測成本在本質(zhì)上十分困難。

那么，花得多是不是至少意味著做得對？答案依然是否定的。

在不同任務(wù)之間，研究者按平均 token 消耗將任務(wù)分組，發(fā)現(xiàn) 消耗更多的任務(wù)組反而準(zhǔn)確率更低。這或許還能用"難題本來就更費(fèi) token"來解釋。但真正出人意料的是同一任務(wù)內(nèi)部的規(guī)律：研究者把同一問題的四次運(yùn)行按開銷從低到高分成四檔，統(tǒng)計(jì)每檔的準(zhǔn)確率，結(jié)果發(fā)現(xiàn) 準(zhǔn)確率并非隨開銷單調(diào)上升 ——它在較低開銷時(shí)就達(dá)到了峰值，此后非但不再增長，反而在最高開銷的兩檔里掉頭向下。

圖4: 各開銷/模型分組的組級準(zhǔn)確率與平均輸入 Token 數(shù)；虛線顯示整體趨勢。

圖5: 跨消耗四分位數(shù)的相對智能體準(zhǔn)確率，以最低消耗設(shè)置為基準(zhǔn)，通過混合效應(yīng)回歸估計(jì)。在處理同一問題時(shí)，智能體性能在中等消耗的運(yùn)行時(shí)達(dá)到峰值，隨后在更高消耗下趨于飽和。

這背后可能是什么原因？作為初步的探索，研究者觀察了 agent 的兩類行為：查看文件與修改文件。一個(gè)值得注意的關(guān)聯(lián)浮現(xiàn)出來：開銷越大的運(yùn)行，重復(fù)查看、重復(fù)修改同一個(gè)文件的次數(shù)也越多。雖然這只是一種相關(guān)性觀察，而非經(jīng)過驗(yàn)證的因果解釋，但這一線索提示我們，昂貴的運(yùn)行未必對應(yīng)著更深入的思考，反而可能伴隨著大量來來回回的重復(fù)操作，把上下文越堆越長卻沒有實(shí)質(zhì)進(jìn)展。它也把我們的目光引向一個(gè)更關(guān)鍵的問題：agent 的效率。

圖6: 跨消耗四分位數(shù)的文件重復(fù)修改相對頻率，以最低消耗設(shè)置為基準(zhǔn)，通過混合效應(yīng)回歸估計(jì)；高消耗運(yùn)行與對同一文件的反復(fù)修改顯著相關(guān)。

圖7: 跨消耗四分位數(shù)的文件重復(fù)查看相對頻率，以最低消耗設(shè)置為基準(zhǔn)，通過混合效應(yīng)回歸估計(jì)；高消耗運(yùn)行與對同一文件的反復(fù)查看顯著相關(guān)。

這個(gè)發(fā)現(xiàn)與近期不少關(guān)于測試時(shí)縮放的研究遙相呼應(yīng)：更多的計(jì)算、更長的思維鏈，并不必然換來更好的答案，有時(shí)反而放大了干擾與無效循環(huán)。對 agent 而言，一味地堆 token，并不是通往更好結(jié)果的捷徑。

三、哪些模型貴，哪些模型?。?/strong>

前面的規(guī)律是 8 個(gè)模型的整體畫像。當(dāng)研究者把鏡頭對準(zhǔn)每一個(gè)模型，又發(fā)現(xiàn)了一層更微妙的差異——在完全相同的智能體框架（harness）和完全相同的500個(gè)任務(wù)下，不同模型的行為竟可以相差懸殊。由于任務(wù)本身和agent框架被固定，剩余差異只能來自模型本身在搜索、閱讀和決策上的不同策略。

先交代一下這 8 位"選手"。它們來自五家不同的公司，既有閉源的 API 模型，也有開源模型：OpenAI 的 GPT-5 和 GPT-5.2，Anthropic 的 Claude Sonnet-3.7、Sonnet-4 和 Sonnet-4.5，Google 的 Gemini-3-Pro Preview，Moonshot AI 的 Kimi-K2（開源），以及阿里巴巴的 Qwen3-Coder-480B（開源）。這樣的陣容，既能做跨公司的橫向觀察，也能在 Claude、GPT 等家族內(nèi)部做不同代際的縱向觀察。

與其說這是一場模型優(yōu)劣的比拼，不如說它揭示了一個(gè)更基礎(chǔ)的現(xiàn)象：當(dāng)外部條件被完全固定下來——同樣的 harness、同樣的任務(wù)——模型之間在 token 使用上的行為差異，依然可以非常顯著。把每個(gè)模型的 token 消耗與準(zhǔn)確率畫在一起，這種差異一目了然：GPT-5 和 GPT-5.2 能以較低的成本取得不錯(cuò)的準(zhǔn)確率，而 Kimi-K2 的成本高昂，準(zhǔn)確率卻并不出眾。在同樣的 500 個(gè)任務(wù)上，Kimi-K2 和 Claude Sonnet-4.5 平均要比 GPT-5 多消耗約 150 萬 token。

圖8: 跨全部500個(gè) SWE-bench 實(shí)例的平均總 Token 用量與平均準(zhǔn)確率；每個(gè)點(diǎn)代表一個(gè)模型。高 Token 用量并不必然帶來更高準(zhǔn)確率，Token 效率因模型而存在顯著差異，反映的是模型自身的行為特性而非任務(wù)難度。

圖9: 各模型在共同成功與共同失敗任務(wù)上的 Token 用量，藍(lán)點(diǎn)表示共同成功子集（n=230，所有模型均解決）的平均 Token 用量，紅色菱形表示共同失敗子集（n=100，所有模型均未解決）的平均 Token 用量。各模型的相對 Token 用量在兩個(gè)子集上保持一致，表明 Token 效率是模型的內(nèi)在特性。

但這種差異，究竟來自模型本身，還是它們恰好碰上了更難的題？研究者用一個(gè)巧妙的設(shè)計(jì)排除了干擾：他們挑出兩個(gè)子集：所有模型都成功的題，和所有模型都失敗的題，再看各模型的消耗。結(jié)果，模型之間的消耗排序幾乎紋絲不動(dòng)。這說明，同一道題對某些模型就是更貴，這是模型自身的行為傾向，而非任務(wù)難度使然。此外，所有模型在失敗題上的消耗都高于成功題，但"超支"的幅度因模型而異：GPT-5 系列只是溫和上升，Kimi-K2 卻暴漲近 200 萬 token——它似乎缺乏一種"識時(shí)務(wù)"的傾向，往往不會(huì)在一道注定解不開的題上及時(shí)收手，而是繼續(xù)探索、重試、反復(fù)讀取上下文，徒然累積成本。

四、能不能在動(dòng)手前準(zhǔn)確報(bào)價(jià)？

了解了開銷的規(guī)律，最實(shí)際的問題隨之而來：在 agent 動(dòng)手之前，我們能不能預(yù)知這筆賬單？這其實(shí)和現(xiàn)實(shí)中人類工程師在開工前估算預(yù)算的程序相同。圍繞這個(gè)問題，研究者從兩個(gè)方向做了嘗試。

第一個(gè)方向，是借助人類的判斷。 SWE-bench Verified 為每道題都標(biāo)注了人類專家估計(jì)的難度，按預(yù)期耗時(shí)分為"<15 分鐘""15 分鐘–1 小時(shí)"">1 小時(shí)"三檔。一個(gè)自然的假設(shè)是：人花的時(shí)間，約等于 agent 花的 token，那么人類的難度判斷，應(yīng)該能預(yù)示 agent 的開銷吧？

然而數(shù)據(jù)再次出乎意料。研究者計(jì)算了 token 消耗與人類標(biāo)注難度的相關(guān)性，得到的 Kendall τ 僅為 0.32，表明兩者只有微弱的關(guān)聯(lián)。更具體地說，有 6.7% 被標(biāo)為"簡單"的任務(wù)，消耗竟超過了"困難"任務(wù)的平均值；又有 11.1% 的"困難"任務(wù)，比"簡單"任務(wù)的平均消耗還低。人類程序員眼中的"難"，和 AI 眼中的"貴"，原來是兩個(gè)并不重合的維度。

圖10: 每個(gè)豎條代表500個(gè) SWE-bench 任務(wù)之一，按實(shí)際 Token 消耗從低到高排序，并按人工難度評級著色。頂部參考色帶顯示完全對齊時(shí)的預(yù)期著色（從淺到深的整潔漸變）；其下方的實(shí)際著色則呈現(xiàn)出全局混亂的狀態(tài)。虛線標(biāo)記了 <15 分鐘和 >1 小時(shí)組的均值。右側(cè)為各難度組的 Token 消耗密度分布，各組在整個(gè)范圍內(nèi)存在大量重疊，表明專家評定的任務(wù)難度對智能體 Token 消耗的預(yù)測能力較弱。

第二個(gè)方向則更為直接：讓 agent 自己來預(yù)測自己。既然外部判斷不靠譜，那么最了解 agent 行為的，不正是 agent 自己嗎？研究者保留了 agent 全部的工具與運(yùn)行架構(gòu)，只是在系統(tǒng)提示詞里把任務(wù)從"解決問題"換成了"預(yù)估開銷"。如此一來，agent 依然能用同樣的工具去探索代碼庫、運(yùn)行測試、展開推理，唯獨(dú)不去真正修復(fù)，而是輸出一個(gè) token 估值。

除了預(yù)測 token 消耗本身，這個(gè)實(shí)驗(yàn)其實(shí)也在測試 agent 的一種"自我意識"：一個(gè) agent 能否在了解自身行為模式的基礎(chǔ)上，預(yù)判出自己將要付出的代價(jià)？

而結(jié)果顯示，要做到精準(zhǔn)預(yù)測，仍有很長的路要走：一方面，agent 的自我預(yù)測確實(shí)捕捉到了開銷的粗略趨勢，但精度十分有限：預(yù)測與實(shí)際的相關(guān)性最高也只有 0.39（Claude Sonnet-4.5 對輸出 token 的預(yù)測），多數(shù)模型徘徊在 0.2 到 0.3 之間；而且對輸出 token 的預(yù)測要比對輸入 token 準(zhǔn)確——這并不意外，畢竟輸入 token 的增長更受上下文累積、檢索、工具探索等不確定因素的左右。

圖11: 各模型的自預(yù)測性能與額外開銷。預(yù)測 Token 數(shù)與實(shí)際 Token 數(shù)之間的 Pearson 相關(guān)系數(shù)普遍較低，且自預(yù)測的額外開銷（以預(yù)測成本與實(shí)際任務(wù)成本之比衡量）不可忽視，表明在執(zhí)行前預(yù)測 Token 用量對所有測試模型而言均具有較大挑戰(zhàn)性，預(yù)測效率仍有較大提升空間。

另一方面，幾乎所有模型都系統(tǒng)性地低估了自己的真實(shí)消耗，對輸入 token 的低估尤為嚴(yán)重。它們仿佛總是過于樂觀，料想不到長程任務(wù)中上下文會(huì)膨脹到何種地步。

圖12: 各模型預(yù)測輸出 Token 用量與實(shí)際用量的對比散點(diǎn)圖，對角線表示完美校準(zhǔn)基準(zhǔn)。各模型普遍存在對輸出 Token 用量的低估現(xiàn)象，但預(yù)測值與實(shí)際值之間仍具有一定相關(guān)性。

圖13: 同左圖，但針對輸入 Token 用量。與輸出 Token 相比，輸入 Token 的預(yù)測表現(xiàn)明顯更差：幾乎所有模型的預(yù)測值均嚴(yán)重偏低，散點(diǎn)高度集中于橫軸附近，表明模型對輸入 Token 用量的估計(jì)能力極為有限。

至于預(yù)測本身的成本，早期的 Sonnet-3.7 和 Sonnet-4 一度要花掉超過任務(wù)本身兩倍的代價(jià)去做一次預(yù)測——這顯然得不償失，好在較新的模型都沒有這種問題，大多數(shù)模型的預(yù)測開銷低于真正執(zhí)行任務(wù)的一半。

無論是依靠人類專家，還是依靠 agent 自己，目前對 token 消耗的預(yù)測都只能作為一種粗粒度的信號，離精確的"事前報(bào)價(jià)"還有相當(dāng)?shù)木嚯x。

延伸討論：

賬單背后，需要的是透明、高效與自知

這些發(fā)現(xiàn)，也為未來的研究指向了幾個(gè)值得探索的方向。

從實(shí)用的層面看，它直指當(dāng)前 AI agent 商業(yè)模式的軟肋。訂閱制之所以能在 ChatGPT 這類產(chǎn)品上行得通，是因?yàn)槠胀ㄓ脩舻南拇篌w可預(yù)測、有上限。但 agentic 任務(wù)則正在打破這個(gè)前提：哪怕一個(gè)看似簡單的問題，也可能因?yàn)榉磸?fù)的推理與工具調(diào)用而燒掉巨額 token。研究表明，token 消耗既高度多變，又難以預(yù)測，這使得純粹的“事前定價(jià)”在短期內(nèi)難以實(shí)現(xiàn)，按量計(jì)費(fèi)很可能仍是最現(xiàn)實(shí)的選擇。但這并不意味著用戶只能被動(dòng)接受。即便無法精確報(bào)價(jià)，agent 哪怕只能粗略地識別出"這是一個(gè)高開銷任務(wù)"，也足以讓系統(tǒng)在執(zhí)行前發(fā)出預(yù)警、請求用戶確認(rèn)，或提供更經(jīng)濟(jì)的備選方案。再配合"預(yù)算感知"的工具調(diào)用策略，從運(yùn)行時(shí)層面約束 token 的失控增長，透明與可控就并非遙不可及。

不過，成本預(yù)測的意義并不局限于商業(yè)定價(jià)。更深一層看，它實(shí)際上涉及智能體是否能夠理解并預(yù)測自己的行為模式。這項(xiàng)研究無意間觸碰到了一個(gè)關(guān)于 AI 本質(zhì)的問題。讓 agent 預(yù)測自己的開銷，表面上是個(gè)成本估算任務(wù)，內(nèi)里卻是一種“行為自我意識”（behavioral self-awareness），一個(gè)智能體能否足夠清楚地認(rèn)識自己，以至于能預(yù)判自己將如何行動(dòng)、將消耗多少資源？事實(shí)上，這種自我認(rèn)知有著許多的場景：對成本的感知、對預(yù)算和規(guī)劃的感知、乃至對自身能力邊界的感知（能否知難而退及時(shí)止損？）。它們共同構(gòu)成了自主智能體走向成熟的重要標(biāo)志：一個(gè)懂得預(yù)估代價(jià)、心中有“預(yù)算”的 agent，也更懂得規(guī)劃與取舍，知道一個(gè)任務(wù)是否值得嘗試，知道在何時(shí)該停下來。

而實(shí)驗(yàn)給出的答案，表明這條路還很長：今天最先進(jìn)的模型，依然不太"認(rèn)識"自己。它們能感知大致的方向，卻看不清具體的輪廓；它們總是過于樂觀，低估前路的曲折。這種"自知之明"的缺失，與前面發(fā)現(xiàn)的另一個(gè)現(xiàn)象彼此呼應(yīng)，模型往往不知道何時(shí)該在一道解不開的題上收手。看清自己要花多少，與知道自己何時(shí)該停，或許本就是同一種能力的兩面，而這也正是值得深入開掘的研究空間。

隨著 AI agent 從編程走向更廣闊的場景，token 消耗的問題只會(huì)愈發(fā)凸顯。如何設(shè)計(jì)更高效的 agent，如何建立更可靠的開銷預(yù)測與管理機(jī)制，將成為這一領(lǐng)域繞不開的課題。而在這一切之下，那個(gè)更根本的追問始終回響：我們能否造出一個(gè)既能替我們高效工作、又能意識到自己賬單的 AI？

參考文獻(xiàn)

arXiv 論文： https://arxiv.org/pdf/2604.22750

項(xiàng)目網(wǎng)站： https://longjubai.github.io/agent_token_consumption/

論文作者：

大模型2.0讀書會(huì)

o1模型代表大語言模型融合學(xué)習(xí)與推理的新范式。集智俱樂部聯(lián)合北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院教授張江、Google DeepMind研究科學(xué)家馮熙棟、阿里巴巴強(qiáng)化學(xué)習(xí)研究員王維塤和中科院信工所張杰共同發(fā)起，本次讀書會(huì)將關(guān)注大模型推理范式的演進(jìn)、基于搜索與蒙特卡洛樹的推理優(yōu)化、基于強(qiáng)化學(xué)習(xí)的大模型優(yōu)化、思維鏈方法與內(nèi)化機(jī)制、自我改進(jìn)與推理驗(yàn)證。希望通過讀書會(huì)探索o1具體實(shí)現(xiàn)的技術(shù)路徑，幫助我們更好的理解機(jī)器推理和人工智能的本質(zhì)。讀書會(huì)已完結(jié)，現(xiàn)在報(bào)名可加入社群并解鎖回放視頻權(quán)限。

詳情請見：

1.

2.

3.

4.

5.

6.

7.

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦

熱點(diǎn)推薦

“都公示過了，全家等著我去上班呢” 黑龍江女子考編排名第一卻被別人遞補(bǔ)，維權(quán)后崗位被取消，當(dāng)?shù)兀簩徍巳藛T把關(guān)不嚴(yán)

看看新聞 2026-06-14 09:38:33
3490 跟貼 3490
女子兩小時(shí)試40多件衣服買33件

瀟湘晨報(bào) 2026-06-14 13:37:16
6 跟貼 6

“張雪機(jī)車”再次奪冠

新華社客戶端 2026-06-13 20:36:34
9565 跟貼 9565

平田整地要讓農(nóng)民還貸？每畝200元連交15年！甘肅最新回應(yīng)

央視新聞客戶端 2026-06-14 15:11:54
1079 跟貼 1079
上海頭部高校重磅！復(fù)旦、交大、同濟(jì)、華東師大齊宣布：本科擴(kuò)招！

環(huán)球網(wǎng)資訊 2026-06-13 22:01:12
144 跟貼 144

女子花680元辦山姆會(huì)員卡，收到臨期菜：距離過期僅剩不到24小時(shí)；客服：不想要臨期可以備注

都市快報(bào)橙柿互動(dòng) 2026-06-13 18:48:30
552 跟貼 552

布倫森獨(dú)扛45分！尼克斯時(shí)隔53年再捧NBA總冠軍獎(jiǎng)杯

澎湃新聞 2026-06-14 11:32:33
889 跟貼 889
瑞典稱一天內(nèi)兩次出動(dòng)"鷹獅"戰(zhàn)機(jī)攔截俄戰(zhàn)機(jī)

環(huán)球網(wǎng)資訊 2026-06-14 08:55:09
2475 跟貼 2475

廣州一奔馳4S店人去樓空車主售后維保被發(fā)配到200公里外

新快報(bào)新聞 2026-06-14 16:31:04
6 跟貼 6
一周新車盤點(diǎn) | 騰勢Z申報(bào)1600馬力 Smart首款插混轎車上市

界面新聞 2026-06-14 14:01:02
4 跟貼 4
國安部披露：石某某前往深山中一處軍事基地，拍攝軍事設(shè)施照片記錄“越野成果”，被處罰

政知新媒體 2026-06-14 08:28:49
2 跟貼 2
游客吐槽無錫國保園林寄暢園像“吸煙室”，古建古樹間煙霧彌漫，景區(qū)回應(yīng)：已全面禁煙

上游新聞 2026-06-13 18:13:12
1311 跟貼 1311
政治算計(jì)換不來民生福祉（微言）

金臺資訊 2026-06-14 06:14:26
28 跟貼 28
海光信息在漢披露：國產(chǎn)CPU處理器性能已比肩英特爾

支點(diǎn)財(cái)經(jīng) 2026-06-11 21:27:18
174 跟貼 174
揭秘：為什么不建議老舊家電“超期服役”?

北青網(wǎng)-北京青年報(bào) 2026-06-12 12:00:04
315 跟貼 315
買火車票有新優(yōu)惠政策！

西安發(fā)布 2026-06-14 11:31:22
52 跟貼 52
五冠王巴西隊(duì)，首戰(zhàn)被摩洛哥隊(duì)逼平

南方都市報(bào) 2026-06-14 09:48:11
60 跟貼 60
海爾凈水進(jìn)駐國家奧林匹克體育中心

中國青年報(bào) 2026-06-13 19:04:30
193 跟貼 193
第48屆世界技能大賽獎(jiǎng)牌在滬展示，以中國傳統(tǒng)榫卯結(jié)構(gòu)為視覺標(biāo)識

澎湃新聞 2026-06-14 17:10:27
1 跟貼 1
燃?xì)馕搓P(guān)七旬老人外出被反鎖在外，消防員一分鐘破門除險(xiǎn)情

新京報(bào) 2026-06-14 17:37:30
0 跟貼 0

流量果然為王，“小馬云”范小勤直播賣字爆火，這屆富豪眼光獨(dú)特

流量果然為王，“小馬云”范小勤直播賣字爆火，這屆富豪眼光獨(dú)特

奔跑的阿樂

2026-06-14 12:37:13

3-1逆轉(zhuǎn)！朱雨玲決戰(zhàn)張本美和，中日爭冠背后，國乒年輕一代該清醒了

3-1逆轉(zhuǎn)！朱雨玲決戰(zhàn)張本美和，中日爭冠背后，國乒年輕一代該清醒了

林子說事

2026-06-14 14:43:54

值班室驚現(xiàn)啤酒燒烤局，紀(jì)委破門一測：沒超標(biāo)！這屆官方回應(yīng)絕了

值班室驚現(xiàn)啤酒燒烤局，紀(jì)委破門一測：沒超標(biāo)！這屆官方回應(yīng)絕了

菁菁子衿

2026-06-14 10:17:25

馬化騰認(rèn)了！2.2萬億蒸發(fā)，股價(jià)跌回九年前，騰訊到底做錯(cuò)了什么

馬化騰認(rèn)了！2.2萬億蒸發(fā)，股價(jià)跌回九年前，騰訊到底做錯(cuò)了什么

金錯(cuò)刀

2026-06-14 07:33:15

8歲被拐，22年后娶妻生子，親生母親找上門，他跪地喊：媽啊！

8歲被拐，22年后娶妻生子，親生母親找上門，他跪地喊：媽??！

真實(shí)人物采訪

2026-06-13 16:10:05

貪官末日來了！中央反腐新規(guī)已落地，無論在職退休一律終身追責(zé)

貪官末日來了！中央反腐新規(guī)已落地，無論在職退休一律終身追責(zé)

細(xì)說職場

2026-06-13 12:04:14

老淚縱橫！泰王哭到雙眼紅腫，沉重父愛看得人好心酸

老淚縱橫！泰王哭到雙眼紅腫，沉重父愛看得人好心酸

凡知

2026-06-14 00:15:14

誰能想到，美加墨世界杯卻火了中國，多國民眾渴求中國辦場世界杯

誰能想到，美加墨世界杯卻火了中國，多國民眾渴求中國辦場世界杯

鍋鍋愛歷史

2026-06-14 12:15:09

為什么往死里掃黃？網(wǎng)友分享太真實(shí)了，一次說透

為什么往死里掃黃？網(wǎng)友分享太真實(shí)了，一次說透

另子維愛讀史

2026-05-27 20:16:03

正式退出，官宣離隊(duì)，王俊杰：主帥對我意見大，沒能扮演重要角色

正式退出，官宣離隊(duì)，王俊杰：主帥對我意見大，沒能扮演重要角色

童叔不飆車

2026-06-14 00:55:00

白鹿的中專學(xué)歷實(shí)錘了??？

白鹿的中專學(xué)歷實(shí)錘了！？

八卦瘋叔

2026-06-14 10:56:48

湖北寶媽2分50秒私密視頻發(fā)到家長群，網(wǎng)友：看過讓人汗顏

湖北寶媽2分50秒私密視頻發(fā)到家長群，網(wǎng)友：看過讓人汗顏

王姐懶人家常菜

2026-06-14 13:53:16

澳大利亞2-0爆冷！土耳其狂轟30腳0球！球迷：國足無緣世界杯不冤

澳大利亞2-0爆冷！土耳其狂轟30腳0球！球迷：國足無緣世界杯不冤

球叮足球

2026-06-14 15:42:13

高鑫王一楠女兒高中畢業(yè)典禮！外公外婆昆明飛上海，全家盛裝出席

高鑫王一楠女兒高中畢業(yè)典禮！外公外婆昆明飛上海，全家盛裝出席

露珠聊影視

2026-06-13 22:29:29

10次40+，單賽季三座MVP，全面包圍東契奇！今夜比肩他的只有喬丹

10次40+，單賽季三座MVP，全面包圍東契奇！今夜比肩他的只有喬丹

阿浪的籃球故事

2026-06-14 16:10:10

離譜！捷克球迷放狠話：寧愿輸給中國國足，也不想輸給韓國

離譜！捷克球迷放狠話：寧愿輸給中國國足，也不想輸給韓國

十點(diǎn)體壇

2026-06-13 23:00:31

?？怂箒G冠后格局大：賽后擁抱恩師布朗微笑祝賀，與文班形成反差

?？怂箒G冠后格局大：賽后擁抱恩師布朗微笑祝賀，與文班形成反差

林小湜體育頻道

2026-06-14 17:28:09

太沉重了！一張殯儀館的電子顯示屏8位逝者，有6人未能活到55歲

太沉重了！一張殯儀館的電子顯示屏8位逝者，有6人未能活到55歲

火山詩話

2026-06-12 08:54:20

2026年最強(qiáng)反腐來了！中紀(jì)委：害群之馬將清除到底！

2026年最強(qiáng)反腐來了！中紀(jì)委：害群之馬將清除到底！

職場資深秘書

2026-06-13 15:28:01

外媒：FIFA要求埃及隊(duì)調(diào)整球衣設(shè)計(jì)，取消象征7次非洲冠軍的星標(biāo)

外媒：FIFA要求埃及隊(duì)調(diào)整球衣設(shè)計(jì)，取消象征7次非洲冠軍的星標(biāo)

懂球帝

2026-06-13 13:54:05

集智俱樂部

科普人工智能相關(guān)知識技能

5885文章數(shù) 4678關(guān)注度

往期回顧全部

科技要聞

Anthropic最強(qiáng)模型被禁，傳亞馬遜通風(fēng)報(bào)信

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡現(xiàn)場畫面披露

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡現(xiàn)場畫面披露

體育要聞

8年8隊(duì)奪冠，鄧肯那句話，現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA，等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口，大媽又來抄底了！

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

親子

本地

旅游

家居

老人、小孩、孕婦，吃粽子有啥風(fēng)險(xiǎn)

親子要聞

4歲女兒大早上就哭，爸爸氣的直訓(xùn)她，沒想到她還挺能對付

本地新聞

AK劉彰邂逅河北南大港濕地

旅游要聞

三百年古村落金剛碑的“新舊共生”

家居要聞

空間微調(diào) 移形換境

自由流光回溯生活真意
雅奢之序五層別墅
220平對味兒家空間情緒宅

© 1997-2026 網(wǎng)易公司版權(quán)所有 About NetEase | 公司簡介 | 聯(lián)系方法 | 招聘信息 | 客戶服務(wù) | 隱私政策 | 不良信息舉報(bào) Complaint Center | 廉正舉報(bào) | 侵權(quán)投訴

無障礙瀏覽進(jìn)入關(guān)懷版