无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

AI agent 能算清自己的賬單嗎?一次關(guān)于 token 消耗的系統(tǒng)分析|白龍駒

0
分享至


導(dǎo)語

過去一年,AI coding agent 的能力突飛猛進(jìn),但伴隨而來的,是迅速膨脹且難以預(yù)測的 token 成本。來自密歇根大學(xué)、斯坦福大學(xué)等機(jī)構(gòu)的研究者首次系統(tǒng)分析了 8 個(gè)前沿大模型在 SWE-bench Verified 上的完整運(yùn)行軌跡,揭示了一個(gè)出人意料的事實(shí):Agent 的主要成本并非來自輸出,而是來自不斷累積的輸入上下文;更高的開銷也未必帶來更好的結(jié)果,而當(dāng)前最先進(jìn)的模型甚至難以準(zhǔn)確預(yù)測自己將消耗多少資源。這項(xiàng)研究將目光從“模型能否完成任務(wù)”轉(zhuǎn)向“模型如何使用計(jì)算資源”,為理解 Agent 的效率、成本與自我規(guī)劃能力提供了新的視角。

關(guān)鍵詞:智能體、Token成本、效率評估、成本預(yù)測、預(yù)算感知、自我認(rèn)知

白龍駒丨作者

趙思怡丨審校


論文題目: How Do AI Agents Spend Your Money? Analyzing and Predicting Token Consumption in Agentic Coding Tasks 論文地址: https://arxiv.org/pdf/2604.22750

發(fā)表時(shí)間:2026 年 4 月 24 日

論文來源:arXiv

引子:一筆看不見的賬單

想象這樣一個(gè)場景:你雇了一位助理幫你修復(fù)一個(gè)軟件 bug。他埋頭工作,翻閱文檔、反復(fù)試錯(cuò)、運(yùn)行測試,幾個(gè)小時(shí)后交出成果,然后遞給你一張賬單。而在此之前, 你完全不知道這次要花多少錢,要花多長時(shí)間,甚至不知道他能不能把這個(gè)任務(wù)成功完成 。更糟的是,即便他最終沒修好,這筆錢你也得照付。

這正是今天我們與 AI 智能體打交道的真實(shí)寫照。從 Claude Code、Codex 到 Cursor,這類能夠自主讀取代碼庫、調(diào)用工具、迭代修改的智能體,已經(jīng)迅速滲透進(jìn)真實(shí)的軟件工程流程。過去一年里,它們在權(quán)威評測 SWE-bench Verified 上的準(zhǔn)確率被一路推高到 78% 以上,進(jìn)步之快令人側(cè)目。

但伴隨能力躍升的,是一筆越來越沉重、也越來越難以看清的賬單。任何用過這類工具的人都熟悉那幾句抱怨:“為什么這么簡單直接的一個(gè)問題都要反復(fù)調(diào)試,調(diào)用工具這么多輪?”,“換了一個(gè)backbone模型之后怎么效率和能力差別這么大?”,“我的額度怎么又用完了?”

這些抱怨背后,藏著一個(gè)尚未被系統(tǒng)研究的問題: AI agent 到底把錢(也就是 token)花在了哪里?不同的backbone模型在效率和能力上有哪些差異?我們能不能在它動(dòng)手之前,就預(yù)知這筆開銷?

來自密歇根大學(xué)、斯坦福大學(xué)等機(jī)構(gòu)的研究者,借助開源的 OpenHands coding agent 框架,分析了 8 個(gè)前沿大模型在 SWE-bench Verified 上的完整運(yùn)行軌跡,首次就“agent成本從何而來、不同模型有何不同、成本能否預(yù)測”3個(gè)問題給出了系統(tǒng)性的答案 。

一、為什么agent任務(wù)如此昂貴?

要理解這筆賬單,首先得知道它和其他任務(wù)場景有哪些不同。

研究者比較了三類與代碼相關(guān)的任務(wù):代碼推理(針對單個(gè)代碼問題的一次性推理)、代碼聊天(圍繞代碼的多輪對話),以及 agentic 代碼任務(wù)(agent 在真實(shí)代碼庫中自主解決 SWE-bench 問題)。這三類任務(wù)對應(yīng)著能力遞進(jìn)的三個(gè)層次,所要應(yīng)對的問題也越來越復(fù)雜:代碼推理往往只用于預(yù)測某個(gè)函數(shù)的輸出,代碼聊天則輔助人類理解設(shè)計(jì)、調(diào)整代碼,而 coding agent 已經(jīng)能夠全自動(dòng)地解決問題。能力上的層層遞進(jìn),也最終反映到 token 消耗上,三類任務(wù)在數(shù)量級上拉開了驚人的差距: 無論是平均 token 消耗、平均花費(fèi),還是輸入與輸出 token 的比例,agentic 任務(wù)都呈指數(shù)級地高于另外兩類 。一個(gè)典型的 agentic 編碼任務(wù)平均消耗約 417 萬 token,而一次代碼推理任務(wù)只需約 1200 token——相差近千倍。

更讓人好奇的是這些token花在了哪里。 人們直覺上會(huì)認(rèn)為,AI 的成本主要來自它"說"的話,也就是生成的輸出。但數(shù)據(jù)揭示了相反的事實(shí):真正吞噬成本的是輸入,而非輸出。在 agentic代碼任務(wù)中,輸入與輸出的 token 比高達(dá) 154:1。


圖1:Agentic Coding任務(wù)所消耗的token數(shù)量明顯多于代碼推理(無工具交互的單輪問題求解)和代碼對話(關(guān)于編程問題的多輪對話)任務(wù),這一差異主要由輸入token數(shù)量的增加所驅(qū)動(dòng)。

這一現(xiàn)象,源于 agent 獨(dú)特的多步工作方式。它并非一問一答,而是在多輪交互中不斷累積上下文。 盡管學(xué)界已有不少關(guān)于 agent 記憶管理的探索(如智能記憶壓縮、記憶檢索、滑動(dòng)上下文窗口等),但當(dāng)前產(chǎn)品級的 coding agent 大多仍采用最樸素的"全盤累積"策略 :每一次代碼查詢、每一份文件內(nèi)容、每一條工具返回的結(jié)果,都會(huì)被追加進(jìn)對話歷史,并在下一輪原封不動(dòng)地重新喂給模型,直到逼近上下文長度上限,才開始壓縮記憶。任務(wù)越長,這個(gè)雪球就滾得越大。即便廠商普遍啟用了上下文緩存(caching)來削減重復(fù)處理的成本,輸入端依然是開銷的絕對主力。

這意味著一件重要的事:agentic 任務(wù)的成本結(jié)構(gòu),與我們熟悉的聊天、推理任務(wù)有著本質(zhì)的不同。理解 agent 的開銷,不能照搬舊有的經(jīng)驗(yàn)。

二、花得越多,做得越好嗎

既然 agent 這么燒錢,一個(gè)自然的期待是:多花的錢總該買來更好的結(jié)果吧?研究的第二個(gè)發(fā)現(xiàn),卻給這個(gè)樸素的直覺潑了一盆冷水。

首先,token 消耗本身就極不穩(wěn)定。研究者統(tǒng)計(jì)了 500 個(gè)問題的平均消耗并排序后發(fā)現(xiàn),最貴的任務(wù)比最便宜的多消耗約 700 萬 token; 而且越貴的任務(wù),消耗的波動(dòng)也越大 。更讓人注意的是同一任務(wù)的重復(fù)運(yùn)行—— 同樣的問題、同樣的模型,跑四次,最貴的那次仍可能是最便宜那次的兩倍左右 。換句話說,agent 的開銷帶著一種內(nèi)在的隨機(jī)性,哪怕面對完全相同的問題,你也無法篤定它這次會(huì)花多少。


圖2: 跨四次運(yùn)行和八個(gè)模型的逐實(shí)例均值 ±1 個(gè)標(biāo)準(zhǔn)差,實(shí)例按均值成本排序;右側(cè)的重尾分布表明,高消耗問題同時(shí)也具有最大的跨運(yùn)行方差。


圖3: 跨500個(gè)實(shí)例平均的逐模型最大/最小消耗比,誤差棒顯示跨實(shí)例的 ±1 個(gè)標(biāo)準(zhǔn)差。 綜合來看,這些結(jié)果表明 Token 消耗具有高度變異性,使得預(yù)先預(yù)測成本在本質(zhì)上十分困難。

那么,花得多是不是至少意味著做得對?答案依然是否定的。

在不同任務(wù)之間,研究者按平均 token 消耗將任務(wù)分組,發(fā)現(xiàn) 消耗更多的任務(wù)組反而準(zhǔn)確率更低 。這或許還能用"難題本來就更費(fèi) token"來解釋。但真正出人意料的是同一任務(wù)內(nèi)部的規(guī)律:研究者把同一問題的四次運(yùn)行按開銷從低到高分成四檔,統(tǒng)計(jì)每檔的準(zhǔn)確率,結(jié)果發(fā)現(xiàn) 準(zhǔn)確率并非隨開銷單調(diào)上升 ——它在較低開銷時(shí)就達(dá)到了峰值,此后非但不再增長,反而在最高開銷的兩檔里掉頭向下。


圖4: 各開銷/模型分組的組級準(zhǔn)確率與平均輸入 Token 數(shù);虛線顯示整體趨勢。


圖5: 跨消耗四分位數(shù)的相對智能體準(zhǔn)確率,以最低消耗設(shè)置為基準(zhǔn),通過混合效應(yīng)回歸估計(jì)。在處理同一問題時(shí),智能體性能在中等消耗的運(yùn)行時(shí)達(dá)到峰值,隨后在更高消耗下趨于飽和。

這背后可能是什么原因?作為初步的探索,研究者觀察了 agent 的兩類行為:查看文件與修改文件。一個(gè)值得注意的關(guān)聯(lián)浮現(xiàn)出來: 開銷越大的運(yùn)行,重復(fù)查看、重復(fù)修改同一個(gè)文件的次數(shù)也越多 。雖然這只是一種相關(guān)性觀察,而非經(jīng)過驗(yàn)證的因果解釋,但這一線索提示我們,昂貴的運(yùn)行未必對應(yīng)著更深入的思考,反而可能伴隨著大量來來回回的重復(fù)操作,把上下文越堆越長卻沒有實(shí)質(zhì)進(jìn)展。它也把我們的目光引向一個(gè)更關(guān)鍵的問題:agent 的效率。


圖6: 跨消耗四分位數(shù)的文件重復(fù)修改相對頻率,以最低消耗設(shè)置為基準(zhǔn),通過混合效應(yīng)回歸估計(jì);高消耗運(yùn)行與對同一文件的反復(fù)修改顯著相關(guān)。


圖7: 跨消耗四分位數(shù)的文件重復(fù)查看相對頻率,以最低消耗設(shè)置為基準(zhǔn),通過混合效應(yīng)回歸估計(jì);高消耗運(yùn)行與對同一文件的反復(fù)查看顯著相關(guān)。

這個(gè)發(fā)現(xiàn)與近期不少關(guān)于測試時(shí)縮放的研究遙相呼應(yīng):更多的計(jì)算、更長的思維鏈,并不必然換來更好的答案,有時(shí)反而放大了干擾與無效循環(huán)。對 agent 而言,一味地堆 token,并不是通往更好結(jié)果的捷徑。

三、哪些模型貴,哪些模型?。?/strong>

前面的規(guī)律是 8 個(gè)模型的整體畫像。當(dāng)研究者把鏡頭對準(zhǔn)每一個(gè)模型,又發(fā)現(xiàn)了一層更微妙的差異——在完全相同的智能體框架(harness)和完全相同的500個(gè)任務(wù)下,不同模型的行為竟可以相差懸殊。由于任務(wù)本身和agent框架被固定,剩余差異只能來自模型本身在搜索、閱讀和決策上的不同策略 。

先交代一下這 8 位"選手"。它們來自五家不同的公司,既有閉源的 API 模型,也有開源模型:OpenAI 的 GPT-5 和 GPT-5.2,Anthropic 的 Claude Sonnet-3.7、Sonnet-4 和 Sonnet-4.5,Google 的 Gemini-3-Pro Preview,Moonshot AI 的 Kimi-K2(開源),以及阿里巴巴的 Qwen3-Coder-480B(開源)。這樣的陣容,既能做跨公司的橫向觀察,也能在 Claude、GPT 等家族內(nèi)部做不同代際的縱向觀察。

與其說這是一場模型優(yōu)劣的比拼,不如說它揭示了一個(gè)更基礎(chǔ)的現(xiàn)象: 當(dāng)外部條件被完全固定下來——同樣的 harness、同樣的任務(wù)——模型之間在 token 使用上的行為差異,依然可以非常顯著。 把每個(gè)模型的 token 消耗與準(zhǔn)確率畫在一起,這種差異一目了然:GPT-5 和 GPT-5.2 能以較低的成本取得不錯(cuò)的準(zhǔn)確率,而 Kimi-K2 的成本高昂,準(zhǔn)確率卻并不出眾。在同樣的 500 個(gè)任務(wù)上,Kimi-K2 和 Claude Sonnet-4.5 平均要比 GPT-5 多消耗約 150 萬 token。


圖8: 跨全部500個(gè) SWE-bench 實(shí)例的平均總 Token 用量與平均準(zhǔn)確率;每個(gè)點(diǎn)代表一個(gè)模型。高 Token 用量并不必然帶來更高準(zhǔn)確率,Token 效率因模型而存在顯著差異,反映的是模型自身的行為特性而非任務(wù)難度。


圖9: 各模型在共同成功與共同失敗任務(wù)上的 Token 用量,藍(lán)點(diǎn)表示共同成功子集(n=230,所有模型均解決)的平均 Token 用量,紅色菱形表示共同失敗子集(n=100,所有模型均未解決)的平均 Token 用量。各模型的相對 Token 用量在兩個(gè)子集上保持一致,表明 Token 效率是模型的內(nèi)在特性。

但這種差異,究竟來自模型本身,還是它們恰好碰上了更難的題?研究者用一個(gè)巧妙的設(shè)計(jì)排除了干擾:他們挑出兩個(gè)子集:所有模型都成功的題,和所有模型都失敗的題,再看各模型的消耗。結(jié)果,模型之間的消耗排序幾乎紋絲不動(dòng)。這說明, 同一道題對某些模型就是更貴,這是模型自身的行為傾向,而非任務(wù)難度使然 。此外, 所有模型在失敗題上的消耗都高于成功題,但"超支"的幅度因模型而異 :GPT-5 系列只是溫和上升,Kimi-K2 卻暴漲近 200 萬 token——它似乎缺乏一種"識時(shí)務(wù)"的傾向,往往不會(huì)在一道注定解不開的題上及時(shí)收手,而是繼續(xù)探索、重試、反復(fù)讀取上下文,徒然累積成本。

四、能不能在動(dòng)手前準(zhǔn)確報(bào)價(jià)?

了解了開銷的規(guī)律,最實(shí)際的問題隨之而來:在 agent 動(dòng)手之前,我們能不能預(yù)知這筆賬單?這其實(shí)和現(xiàn)實(shí)中人類工程師在開工前估算預(yù)算的程序相同。圍繞這個(gè)問題,研究者從兩個(gè)方向做了嘗試。

第一個(gè)方向,是借助人類的判斷。 SWE-bench Verified 為每道題都標(biāo)注了人類專家估計(jì)的難度,按預(yù)期耗時(shí)分為"<15 分鐘""15 分鐘–1 小時(shí)"">1 小時(shí)"三檔。一個(gè)自然的假設(shè)是:人花的時(shí)間,約等于 agent 花的 token,那么人類的難度判斷,應(yīng)該能預(yù)示 agent 的開銷吧?

然而數(shù)據(jù)再次出乎意料。 研究者計(jì)算了 token 消耗與人類標(biāo)注難度的相關(guān)性,得到的 Kendall τ 僅為 0.32,表明兩者只有微弱的關(guān)聯(lián)。 更具體地說,有 6.7% 被標(biāo)為"簡單"的任務(wù),消耗竟超過了"困難"任務(wù)的平均值;又有 11.1% 的"困難"任務(wù),比"簡單"任務(wù)的平均消耗還低。人類程序員眼中的"難",和 AI 眼中的"貴",原來是兩個(gè)并不重合的維度。


圖10: 每個(gè)豎條代表500個(gè) SWE-bench 任務(wù)之一,按實(shí)際 Token 消耗從低到高排序,并按人工難度評級著色。頂部參考色帶顯示完全對齊時(shí)的預(yù)期著色(從淺到深的整潔漸變);其下方的實(shí)際著色則呈現(xiàn)出全局混亂的狀態(tài)。虛線標(biāo)記了 <15 分鐘和 >1 小時(shí)組的均值。右側(cè)為各難度組的 Token 消耗密度分布,各組在整個(gè)范圍內(nèi)存在大量重疊,表明專家評定的任務(wù)難度對智能體 Token 消耗的預(yù)測能力較弱。

第二個(gè)方向則更為直接:讓 agent 自己來預(yù)測自己。 既然外部判斷不靠譜,那么最了解 agent 行為的,不正是 agent 自己嗎?研究者保留了 agent 全部的工具與運(yùn)行架構(gòu),只是在系統(tǒng)提示詞里把任務(wù)從"解決問題"換成了"預(yù)估開銷"。如此一來,agent 依然能用同樣的工具去探索代碼庫、運(yùn)行測試、展開推理,唯獨(dú)不去真正修復(fù),而是輸出一個(gè) token 估值。

除了預(yù)測 token 消耗本身,這個(gè)實(shí)驗(yàn)其實(shí)也在測試 agent 的一種"自我意識":一個(gè) agent 能否在了解自身行為模式的基礎(chǔ)上,預(yù)判出自己將要付出的代價(jià)?

而結(jié)果顯示,要做到精準(zhǔn)預(yù)測,仍有很長的路要走:一方面,agent 的自我預(yù)測確實(shí)捕捉到了開銷的粗略趨勢,但精度十分有限: 預(yù)測與實(shí)際的相關(guān)性最高也只有 0.39(Claude Sonnet-4.5 對輸出 token 的預(yù)測),多數(shù)模型徘徊在 0.2 到 0.3 之間 ;而且對輸出 token 的預(yù)測要比對輸入 token 準(zhǔn)確——這并不意外,畢竟輸入 token 的增長更受上下文累積、檢索、工具探索等不確定因素的左右。


圖11: 各模型的自預(yù)測性能與額外開銷。預(yù)測 Token 數(shù)與實(shí)際 Token 數(shù)之間的 Pearson 相關(guān)系數(shù)普遍較低,且自預(yù)測的額外開銷(以預(yù)測成本與實(shí)際任務(wù)成本之比衡量)不可忽視,表明在執(zhí)行前預(yù)測 Token 用量對所有測試模型而言均具有較大挑戰(zhàn)性,預(yù)測效率仍有較大提升空間。

另一方面, 幾乎所有模型都系統(tǒng)性地低估了自己的真實(shí)消耗,對輸入 token 的低估尤為嚴(yán)重 。它們仿佛總是過于樂觀,料想不到長程任務(wù)中上下文會(huì)膨脹到何種地步。


圖12: 各模型預(yù)測輸出 Token 用量與實(shí)際用量的對比散點(diǎn)圖,對角線表示完美校準(zhǔn)基準(zhǔn)。各模型普遍存在對輸出 Token 用量的低估現(xiàn)象,但預(yù)測值與實(shí)際值之間仍具有一定相關(guān)性。


圖13: 同左圖,但針對輸入 Token 用量。與輸出 Token 相比,輸入 Token 的預(yù)測表現(xiàn)明顯更差:幾乎所有模型的預(yù)測值均嚴(yán)重偏低,散點(diǎn)高度集中于橫軸附近,表明模型對輸入 Token 用量的估計(jì)能力極為有限。

至于預(yù)測本身的成本,早期的 Sonnet-3.7 和 Sonnet-4 一度要花掉超過任務(wù)本身兩倍的代價(jià)去做一次預(yù)測——這顯然得不償失,好在較新的模型都沒有這種問題,大多數(shù)模型的預(yù)測開銷低于真正執(zhí)行任務(wù)的一半。

無論是依靠人類專家,還是依靠 agent 自己,目前對 token 消耗的預(yù)測都只能作為一種粗粒度的信號,離精確的"事前報(bào)價(jià)"還有相當(dāng)?shù)木嚯x。

延伸討論:

賬單背后,需要的是透明、高效與自知

這些發(fā)現(xiàn),也為未來的研究指向了幾個(gè)值得探索的方向。

從實(shí)用的層面看,它直指當(dāng)前 AI agent 商業(yè)模式的軟肋。訂閱制之所以能在 ChatGPT 這類產(chǎn)品上行得通,是因?yàn)槠胀ㄓ脩舻南拇篌w可預(yù)測、有上限。但 agentic 任務(wù)則正在打破這個(gè)前提:哪怕一個(gè)看似簡單的問題,也可能因?yàn)榉磸?fù)的推理與工具調(diào)用而燒掉巨額 token。研究表明,token 消耗既高度多變,又難以預(yù)測,這使得純粹的“事前定價(jià)”在短期內(nèi)難以實(shí)現(xiàn),按量計(jì)費(fèi)很可能仍是最現(xiàn)實(shí)的選擇。 但這并不意味著用戶只能被動(dòng)接受。即便無法精確報(bào)價(jià),agent 哪怕只能粗略地識別出"這是一個(gè)高開銷任務(wù)",也足以讓系統(tǒng)在執(zhí)行前發(fā)出預(yù)警、請求用戶確認(rèn),或提供更經(jīng)濟(jì)的備選方案 。再配合"預(yù)算感知"的工具調(diào)用策略,從運(yùn)行時(shí)層面約束 token 的失控增長,透明與可控就并非遙不可及。

不過,成本預(yù)測的意義并不局限于商業(yè)定價(jià)。更深一層看,它實(shí)際上涉及智能體是否能夠理解并預(yù)測自己的行為模式。 這項(xiàng)研究無意間觸碰到了一個(gè)關(guān)于 AI 本質(zhì)的問題。讓 agent 預(yù)測自己的開銷,表面上是個(gè)成本估算任務(wù),內(nèi)里卻是一種“行為自我意識”(behavioral self-awareness),一個(gè)智能體能否足夠清楚地認(rèn)識自己,以至于能預(yù)判自己將如何行動(dòng)、將消耗多少資源?事實(shí)上,這種自我認(rèn)知有著許多的場景: 對成本的感知、對預(yù)算和規(guī)劃的感知、乃至對自身能力邊界的感知(能否知難而退及時(shí)止損?) 。它們共同構(gòu)成了自主智能體走向成熟的重要標(biāo)志:一個(gè)懂得預(yù)估代價(jià)、心中有“預(yù)算”的 agent,也更懂得規(guī)劃與取舍,知道一個(gè)任務(wù)是否值得嘗試,知道在何時(shí)該停下來。

而實(shí)驗(yàn)給出的答案,表明這條路還很長 :今天最先進(jìn)的模型,依然不太"認(rèn)識"自己。它們能感知大致的方向,卻看不清具體的輪廓;它們總是過于樂觀,低估前路的曲折。這種"自知之明"的缺失,與前面發(fā)現(xiàn)的另一個(gè)現(xiàn)象彼此呼應(yīng),模型往往不知道何時(shí)該在一道解不開的題上收手。看清自己要花多少,與知道自己何時(shí)該停,或許本就是同一種能力的兩面,而這也正是值得深入開掘的研究空間。

隨著 AI agent 從編程走向更廣闊的場景,token 消耗的問題只會(huì)愈發(fā)凸顯。如何設(shè)計(jì)更高效的 agent,如何建立更可靠的開銷預(yù)測與管理機(jī)制,將成為這一領(lǐng)域繞不開的課題。而在這一切之下,那個(gè)更根本的追問始終回響:我們能否造出一個(gè)既能替我們高效工作、又能意識到自己賬單的 AI?

參考文獻(xiàn)

arXiv 論文: https://arxiv.org/pdf/2604.22750

項(xiàng)目網(wǎng)站: https://longjubai.github.io/agent_token_consumption/

論文作者:

大模型2.0讀書會(huì)

o1模型代表大語言模型融合學(xué)習(xí)與推理的新范式。集智俱樂部聯(lián)合北京師范大學(xué)系統(tǒng)科學(xué)學(xué)院教授張江、Google DeepMind研究科學(xué)家馮熙棟、阿里巴巴強(qiáng)化學(xué)習(xí)研究員王維塤和中科院信工所張杰共同發(fā)起,本次讀書會(huì)將關(guān)注大模型推理范式的演進(jìn)、基于搜索與蒙特卡洛樹的推理優(yōu)化、基于強(qiáng)化學(xué)習(xí)的大模型優(yōu)化、思維鏈方法與內(nèi)化機(jī)制、自我改進(jìn)與推理驗(yàn)證。希望通過讀書會(huì)探索o1具體實(shí)現(xiàn)的技術(shù)路徑,幫助我們更好的理解機(jī)器推理和人工智能的本質(zhì)。讀書會(huì)已完結(jié),現(xiàn)在報(bào)名可加入社群并解鎖回放視頻權(quán)限。

詳情請見:

1.

2.

3.

4.

5.

6.

7.

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
流量果然為王,“小馬云”范小勤直播賣字爆火,這屆富豪眼光獨(dú)特

流量果然為王,“小馬云”范小勤直播賣字爆火,這屆富豪眼光獨(dú)特

奔跑的阿樂
2026-06-14 12:37:13
3-1逆轉(zhuǎn)!朱雨玲決戰(zhàn)張本美和,中日爭冠背后,國乒年輕一代該清醒了

3-1逆轉(zhuǎn)!朱雨玲決戰(zhàn)張本美和,中日爭冠背后,國乒年輕一代該清醒了

林子說事
2026-06-14 14:43:54
值班室驚現(xiàn)啤酒燒烤局,紀(jì)委破門一測:沒超標(biāo)!這屆官方回應(yīng)絕了

值班室驚現(xiàn)啤酒燒烤局,紀(jì)委破門一測:沒超標(biāo)!這屆官方回應(yīng)絕了

菁菁子衿
2026-06-14 10:17:25
馬化騰認(rèn)了!2.2萬億蒸發(fā),股價(jià)跌回九年前,騰訊到底做錯(cuò)了什么

馬化騰認(rèn)了!2.2萬億蒸發(fā),股價(jià)跌回九年前,騰訊到底做錯(cuò)了什么

金錯(cuò)刀
2026-06-14 07:33:15
8歲被拐,22年后娶妻生子,親生母親找上門,他跪地喊:媽啊!

8歲被拐,22年后娶妻生子,親生母親找上門,他跪地喊:媽??!

真實(shí)人物采訪
2026-06-13 16:10:05
貪官末日來了!中央反腐新規(guī)已落地,無論在職退休一律終身追責(zé)

貪官末日來了!中央反腐新規(guī)已落地,無論在職退休一律終身追責(zé)

細(xì)說職場
2026-06-13 12:04:14
老淚縱橫!泰王哭到雙眼紅腫,沉重父愛看得人好心酸

老淚縱橫!泰王哭到雙眼紅腫,沉重父愛看得人好心酸

凡知
2026-06-14 00:15:14
誰能想到,美加墨世界杯卻火了中國,多國民眾渴求中國辦場世界杯

誰能想到,美加墨世界杯卻火了中國,多國民眾渴求中國辦場世界杯

鍋鍋愛歷史
2026-06-14 12:15:09
為什么往死里掃黃?網(wǎng)友分享太真實(shí)了,一次說透

為什么往死里掃黃?網(wǎng)友分享太真實(shí)了,一次說透

另子維愛讀史
2026-05-27 20:16:03
正式退出,官宣離隊(duì),王俊杰:主帥對我意見大,沒能扮演重要角色

正式退出,官宣離隊(duì),王俊杰:主帥對我意見大,沒能扮演重要角色

童叔不飆車
2026-06-14 00:55:00
白鹿的中專學(xué)歷實(shí)錘了???

白鹿的中專學(xué)歷實(shí)錘了!?

八卦瘋叔
2026-06-14 10:56:48
湖北寶媽2分50秒私密視頻發(fā)到家長群,網(wǎng)友:看過讓人汗顏

湖北寶媽2分50秒私密視頻發(fā)到家長群,網(wǎng)友:看過讓人汗顏

王姐懶人家常菜
2026-06-14 13:53:16
澳大利亞2-0爆冷!土耳其狂轟30腳0球!球迷:國足無緣世界杯不冤

澳大利亞2-0爆冷!土耳其狂轟30腳0球!球迷:國足無緣世界杯不冤

球叮足球
2026-06-14 15:42:13
高鑫王一楠女兒高中畢業(yè)典禮!外公外婆昆明飛上海,全家盛裝出席

高鑫王一楠女兒高中畢業(yè)典禮!外公外婆昆明飛上海,全家盛裝出席

露珠聊影視
2026-06-13 22:29:29
10次40+,單賽季三座MVP,全面包圍東契奇!今夜比肩他的只有喬丹

10次40+,單賽季三座MVP,全面包圍東契奇!今夜比肩他的只有喬丹

阿浪的籃球故事
2026-06-14 16:10:10
離譜!捷克球迷放狠話:寧愿輸給中國國足,也不想輸給韓國

離譜!捷克球迷放狠話:寧愿輸給中國國足,也不想輸給韓國

十點(diǎn)體壇
2026-06-13 23:00:31
??怂箒G冠后格局大:賽后擁抱恩師布朗微笑祝賀,與文班形成反差

??怂箒G冠后格局大:賽后擁抱恩師布朗微笑祝賀,與文班形成反差

林小湜體育頻道
2026-06-14 17:28:09
太沉重了!一張殯儀館的電子顯示屏8位逝者,有6人未能活到55歲

太沉重了!一張殯儀館的電子顯示屏8位逝者,有6人未能活到55歲

火山詩話
2026-06-12 08:54:20
2026年最強(qiáng)反腐來了!中紀(jì)委:害群之馬將清除到底!

2026年最強(qiáng)反腐來了!中紀(jì)委:害群之馬將清除到底!

職場資深秘書
2026-06-13 15:28:01
外媒:FIFA要求埃及隊(duì)調(diào)整球衣設(shè)計(jì),取消象征7次非洲冠軍的星標(biāo)

外媒:FIFA要求埃及隊(duì)調(diào)整球衣設(shè)計(jì),取消象征7次非洲冠軍的星標(biāo)

懂球帝
2026-06-13 13:54:05
2026-06-14 17:48:49
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關(guān)知識技能
5885文章數(shù) 4678關(guān)注度
往期回顧 全部

科技要聞

Anthropic最強(qiáng)模型被禁,傳亞馬遜通風(fēng)報(bào)信

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡 現(xiàn)場畫面披露

頭條要聞

巴西女孩蹦極沒系繩被拋下40米高橋身亡 現(xiàn)場畫面披露

體育要聞

8年8隊(duì)奪冠,鄧肯那句話,現(xiàn)在還給了馬刺

娛樂要聞

鄧超攜子觀戰(zhàn)NBA,等等帥氣十足

財(cái)經(jīng)要聞

金價(jià)跌至900元關(guān)口,大媽又來抄底了!

汽車要聞

綜合續(xù)航超1600km/零百加速4秒級 2027款星途ES預(yù)售18.99萬起

態(tài)度原創(chuàng)

健康
親子
本地
旅游
家居

老人、小孩、孕婦,吃粽子有啥風(fēng)險(xiǎn)

親子要聞

4歲女兒大早上就哭,爸爸氣的直訓(xùn)她,沒想到她還挺能對付

本地新聞

AK劉彰邂逅河北南大港濕地

旅游要聞

三百年古村落金剛碑的“新舊共生”

家居要聞

空間微調(diào) 移形換境

無障礙瀏覽 進(jìn)入關(guān)懷版