AI圈的怪詞又上新了 —— 這次一口氣來了兩個(gè)。
一個(gè)叫“Tokenmaxxing”,代表一種把Token用量瘋狂刷滿的行為;另一個(gè)叫“Harness”,是一套讓 Agent 正確執(zhí)行任務(wù)的工程設(shè)計(jì)。
這兩個(gè)詞最近都很熱,但率先破圈的是 Tokenmaxxing。
這個(gè)純看 Token 消耗、帶著點(diǎn)粗暴意味的詞兒,在半個(gè)月內(nèi)被海外AI大廠、黃仁勛、Andrej Karpathy,還有以龍蝦為代表的 Agent 推上風(fēng)口浪尖。
甚至,最近 AI 圈打招呼的方式,都變成了互問 Token 消耗量。
![]()
*Token用盡!
與此同時(shí),在刷量聯(lián)歡中,一個(gè)名為 Harness 的理念在技術(shù)圈流行了起來。
Harness 這單詞的直譯是“馬具”。
這個(gè)詞真的很靈。如果把 Agent 比作不聽話的野馬,那 Harness,就是一套讓 Agent 保證任務(wù)質(zhì)量的工程設(shè)計(jì)。沒錯(cuò),它是一套設(shè)計(jì)框架,不是具體的產(chǎn)品。
某種意義上,它們是 AI 狂飆的一體兩面的產(chǎn)物。Tokenmaxxing 代表縱情燃燒算力的揮霍,Harness 則適時(shí)遞上了一條韁繩,試圖把那些無效的消耗拉回正軌。
這兩個(gè)看起來都有些怪異,又某種程度上意義相反的概念,在同一個(gè)春天火了起來。
Tokenmaxxing,一種新型“身份象征”
Tokenmaxxing,把模型的 Token 用量最大化。這種簡(jiǎn)單粗暴的模式之所以成為 AI 新風(fēng)尚,源于 AI 大廠設(shè)置的職場(chǎng)新規(guī),以及黃仁勛、Andrej Karpathy 這類 icon 人物的助推。
幾天前紐約時(shí)報(bào)的報(bào)道,第一次揭露了海外 AI 公司內(nèi)部員工 Token 消耗排行榜的秘密。
報(bào)道中說,Meta、OpenAI、Anthropic 這類公司會(huì)把員工近期的 Token 消耗情況列出來,并依據(jù)消耗量進(jìn)行排名。
榜上排名靠前的員工,可能會(huì)獲得更多薪酬。還有些公司,會(huì)把提供給員工的 Token 預(yù)算,當(dāng)作福利列在牙科保險(xiǎn)和免費(fèi)午餐的旁邊。
以上種種,讓 Token 消耗量成為一種身份象征。
有匿名的 OpenAI 員工表示,自己幾天內(nèi)消耗了2100億 Tokens,是全公司的榜一大哥。
這個(gè)規(guī)模,能把整個(gè)維基百科的文本逐字瀏覽33遍,把《紅樓夢(mèng)》的中文版讀上百萬遍,把5000字的論文寫作并修改上億篇...
拿他們自家的 GPT-5.4 輸出價(jià)格算一下,這些 Tokens 差不多得花個(gè)315萬美元。
身體力行要把 Token 刷爆的代表人物,還有 Andrej Karpathy,這位全球頂流 AI KOL。
他在硅谷著名投資人 Sarah Guo 的播客上說,自己現(xiàn)在不在前沿 AI 實(shí)驗(yàn)室工作,所以把每個(gè)月的 Token 消耗拉滿,是一種保持手感的方式,“如果訂閱還有剩余,我會(huì)焦慮,說明我沒有最大化我的 token 吞吐量。”
這話一出,立馬引起討論。很多心懷 FOMO 的人覺得,Karpathy 替自己說出了心聲,但還有另外一部分人覺得,他是真的有點(diǎn)...病。
![]()
*一篇討論Karpathy“AI病態(tài)”的高贊帖子下,有網(wǎng)友點(diǎn)評(píng),瘋狂消耗Token人就像倉鼠一樣在轉(zhuǎn)輪里瞎忙活。
而黃仁勛,在幾天前的 GTC 大會(huì)上把 Tokenmaxxing 這種純卷 Token 的態(tài)度直接擺上了臺(tái)面。
他說,工程師們應(yīng)該把Token當(dāng)作薪酬包的一部分。一個(gè)AI工程師,每年至少會(huì)消耗價(jià)值25萬美元的Tokens。
![]()
Token刺客,以及那只燒錢的蝦
至此,Tokenmaxxing 這派已經(jīng)集齊了 AI 公司、技術(shù) KOL 和算力霸主。這讓它迅速升格為“Token 經(jīng)濟(jì)學(xué)”的最潮實(shí)踐,也成了一門職場(chǎng)顯學(xué)。
一位愛立信駐瑞典的工程師在采訪中說,自己花在 Claude 上的錢已經(jīng)超過了工資 —— 好在賬單由公司買單。
Shopify 的一位工程師匿名透露:“現(xiàn)在的績(jī)效評(píng)估表上,有一欄專門問你本周用了多少 AI 工具。”如果數(shù)字不夠大,績(jī)效就不好看。
Shopify 的 CEO 隨后在 X 上公開了這份內(nèi)部備忘文件,肯定了員工的 AI 用量確實(shí)和績(jī)效掛鉤。
![]()
*“我們馬上要在績(jī)效評(píng)估和同事360環(huán)評(píng)表里,加上一欄專門問你AI用了多少量了。”
不過,隨著 Tokenmaxxing 而來的還有困擾。這套邏輯里最核心的問題是:過于強(qiáng)調(diào)消耗量,疏于評(píng)估投入產(chǎn)出比。
像 OpenAI 榜一大哥花2100億 Tokens 做的,也并非什么驚天創(chuàng)新,只是一些日常工作而已。
不少重金砸 Token 的人已經(jīng)感到肉痛。
有在硅谷工作的朋友告訴我,Meta 近期有工程師疑似燒出了百萬美元級(jí)別的天價(jià)賬單,被主管緊急約談,追問他到底在做什么。
還有風(fēng)投大佬、8090的聯(lián)創(chuàng) Chamath Palihapitiya 最近也公開發(fā)言,說自家公司的 AI 成本自去年底開始瘋漲,逼近年燒1000萬美元,但收入?yún)s沒有同步跟上。“我們的收入并沒有增長(zhǎng)三倍,Token 賬單卻增長(zhǎng)了三倍。”
![]()
ROI 嚴(yán)重失衡的背后,Agent 成為了推手。
Chamath Palihapitiya 懷疑,自己公司大量的 Token 賬單來自所謂的 Agent 的循環(huán)模式,也就是 Agent 反復(fù)給自己喂同一個(gè)提示詞,轉(zhuǎn)了一百圈也沒解決問題,但 Token 消耗量倒是非常好看。
這種體驗(yàn),想必各位養(yǎng)蝦人也不陌生。
![]()
*過去兩個(gè)月,蝦讓很多普通人體會(huì)到什么是Token刺客
Harness,駕馭Agent,駕馭AI
當(dāng) Tokenmaxxing 在爭(zhēng)議中愈演愈烈,一種更理性的聲音開始出現(xiàn)。
一些人在討論,AI 公司不應(yīng)該只看工程師的 Token 消耗量,更應(yīng)該考察他們能否用10M的 Token,完成等效100M Token 的開發(fā)。
這個(gè)思路聽著靠譜多了。它其實(shí)已經(jīng)指向了 Tokenmaxxing 的對(duì)立面——Harness,一個(gè)最近在 AI 工程圈爆火,且正在加速破圈的理念。
Harness,直譯是“馬具”。
這個(gè)詞選得很妙。Agent 經(jīng)常和野馬一樣不聽話亂跑,還費(fèi)錢,而 Harness,就是一套讓 Agent 保證任務(wù)質(zhì)量的工程(馬具)。
設(shè)計(jì) Harness 的精髓是,既不把 Agent 限制死,又能確保它跑在正確的軌道上。
關(guān)于 Agent、模型、Harness 的關(guān)系公式是:Agent = Model + Harness。模型提供智能,而Harness 讓智能變得可用。在具體實(shí)踐中,Harness 包含前兩年被強(qiáng)調(diào)的上下文工程,又不限于此。
![]()
其實(shí)早在半年前 Claude Code 風(fēng)靡時(shí),AI技術(shù)圈已經(jīng)在討論“腳手架” scaffold,一種通過工程手段提升 Agent 效果的模式。
![]()
*四木群聊當(dāng)時(shí)討論,不論是Cursor還是ClaudeCode,都在腳手架方面做了很多工作。
今年初,隨著 OpenAI 發(fā)布 Codex 實(shí)踐,與“腳手架”思路一脈相承的 Harness Engineering 正式成為熱詞。
![]()
*原文:
https://openai.com/index/harness-engineering/
本周,Anthropic 在一系列重大更新后,也發(fā)布了自己的 Harness 經(jīng)驗(yàn)。他們主要講了通過“對(duì)抗生成”的思路,讓 Agent 產(chǎn)出更符合預(yù)期的網(wǎng)頁結(jié)構(gòu)與交互邏輯。
![]()
*原文:
https://www.anthropic.com/engineering/harness-design-long-running-apps
在諸多關(guān)于 Harness 的持續(xù)解讀中,我覺得字節(jié) Web Infra AI Coding 的負(fù)責(zé)人周曉總結(jié)地挺到位:
他說,Harness Engineering 的核心是給模型好的上下文、好的工具、可讀的環(huán)境。
也就是「為 Agent 打造專屬工作室」,用工程手段讓 Agent 發(fā)揮出超越模型的價(jià)值,減少幻覺、提升效率,保證任務(wù)完成的效果。
![]()
如果再拆分各家的具體做法,會(huì)發(fā)現(xiàn)Harness 還沒有統(tǒng)一思路,目前包括不限于以下幾個(gè)層面:
上下文工程,這是最基礎(chǔ)的一層。
Agent 的輸出質(zhì)量,很大程度上取決于它“看到”了什么。塞給它冗余的上下文,會(huì)浪費(fèi) Token,還會(huì)干擾判斷;過于稀薄的上下文,會(huì)讓它胡亂發(fā)揮。好的 Harness 設(shè)計(jì),是在任務(wù)執(zhí)行的不同階段,精準(zhǔn)地給 Agent 喂它需要的信息。
記憶與狀態(tài)管理,更進(jìn)階的議題。
多輪任務(wù)中,Agent 需要記住“之前做過什么”,但如果每次都把完整歷史塞進(jìn)上下文,Token 成本會(huì)指數(shù)級(jí)增長(zhǎng)。好的 Harness 設(shè)計(jì)會(huì)區(qū)分哪些記憶需要持久、哪些只需要在單次任務(wù)中保留,從而在保證連貫性的同時(shí),控制消耗。
任務(wù)拆解,是保證 Agent “頭腦”清醒的關(guān)鍵。
把一個(gè)不算簡(jiǎn)單的任務(wù)拆成研究、 確認(rèn)方案、執(zhí)行、驗(yàn)證等幾個(gè)步驟,甚至讓不同的Agent承擔(dān)這些工作,效果會(huì)更好。
反饋機(jī)制,是 Agent 自我進(jìn)化的核心。
這里的具體操作有:一旦 Agent 出現(xiàn)了重要失誤,就要把這次的教訓(xùn)記錄進(jìn).md文檔里,讓它下次不再犯;以及設(shè)置Hook或循環(huán)任務(wù),讓它持續(xù)自發(fā)校驗(yàn),直到完成目標(biāo)。
除此之外,Harness 還涉及效果評(píng)估、安全權(quán)限等一系列設(shè)計(jì)。
![]()
*海外獨(dú)角獸對(duì)Harness組件的梳理
由于業(yè)務(wù)場(chǎng)景差異,不同 Agent 的 Harness 難以形成一套不變的標(biāo)準(zhǔn)方法。但無論落地細(xì)節(jié)如何變化,Harness 的存在,都恰好制衡了 Tokenmaxxing 式的浪費(fèi)。
甚至,如果跟著 Harness 的思路,普通人養(yǎng)龍蝦時(shí)遭遇的記憶偏差與任務(wù)跑偏問題也能緩解。
![]()
*根據(jù)Harness經(jīng)驗(yàn)調(diào)整龍蝦的記憶機(jī)制
Tokenmaxxing 和 Harness,這組同期走紅的理念,一個(gè)鼓勵(lì)無節(jié)制地消耗,一個(gè)追求有質(zhì)量地控制。
它們共同指向了所謂的“Token 經(jīng)濟(jì)學(xué)” —— 這個(gè)兩年前被造出來的詞,之前在很多場(chǎng)合被等同于 Token 消耗量,類似于 Tokenmaxxing。
但經(jīng)濟(jì)學(xué)的本質(zhì),是一門研究“如何在有限資源下做選擇”的學(xué)問。如果真討論所謂的 Token 經(jīng)濟(jì)學(xué),那它應(yīng)該回答的問題不是消耗了多少,而是這些消耗是否值得。
雖然此時(shí) Token 價(jià)值的判斷標(biāo)準(zhǔn)還不清晰,但 Harness 起碼給出了一個(gè)起點(diǎn)。
畢竟,比起在排行榜上刷出一個(gè)聳人聽聞的 Token 數(shù),設(shè)計(jì)一套方案讓蝦真的能把事情做完,是更值得追求的目標(biāo)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.