ChatGPT還沒學(xué)會閉嘴,Claude已經(jīng)開始給你打分了。
過去我們拿著各種benchmark給AI跑分,現(xiàn)在倒了過來——上周末,Anthropic默默在Claude里塞進了一個叫“AI Fluency”的功能,直接掃描你的歷史對話,然后甩給你一張成績單。有手快的網(wǎng)友已經(jīng)跑出結(jié)果了:7.5分。
![]()
這件事之所以在海外AI圈炸開,不是因為技術(shù)多酷炫,而是AI點評人類的方式實在讓人后背發(fā)涼——它不是泛泛地說你“還不錯”,而是精準(zhǔn)地指著你的鼻子說:你在體育數(shù)據(jù)上一竅不通,你太依賴Connector了,你寫的廢話太多。
一個拿著教鞭的賽博導(dǎo)師,正式上崗了。
AI的“體檢報告”長什么樣
目前這個功能還在灰度測試階段,不是所有用戶都能看到。但體驗過的人描述的畫面很清晰:打開Claude的設(shè)置面板,找到“AI Fluency”專屬屏幕,點擊生成報告,幾秒鐘后,一份關(guān)于你AI使用習(xí)慣的診斷書就擺在眼前。
它掃描的范圍不止是你和Claude的日常閑聊。Chat里的零碎對話、Cowork協(xié)作空間的協(xié)作記錄,甚至是你在Claude Code里的硬核編程交互——全都被納入了評估范圍。滿分11分。
那位曬出7.5分的網(wǎng)友分享的弱點分析,措辭堪稱犀利:“報告指出我極其頻繁地使用各種Connector,但只要話題涉及體育數(shù)據(jù)、食譜,甚至地圖和地理位置,我就表現(xiàn)得一無所知。”
更絕的是,Claude不只是指問題,還直接上手給指導(dǎo)方案。它建議這位網(wǎng)友“主動通過情境激發(fā)AI的敏銳辨別力”,甚至具體要求:“在讓我寫第一稿之前,試著對我說——給我一個簡潔的要點摘要,不要任何前言廢話。這樣能讓你的初稿干凈得多。”
這不是冷冰冰的軟件反饋,這是一個恨鐵不成鋼的師傅在敲你腦殼。
功能泄露之后,社交媒體上開始出現(xiàn)大量討論帖。有位網(wǎng)友激動地沖到論壇發(fā)帖確認(rèn)自己沒瘋:“我生成了報告,結(jié)果回到筆記本電腦前,服務(wù)器報了個錯,功能就消失了!”這個驚鴻一瞥的泄露,把所有人的胃口吊到了極點。
9830段對話扒出的殘酷真相
要理解這11條評分標(biāo)準(zhǔn)從哪來,得把時間線往回拽——拽到Anthropic發(fā)布那篇《AI流利度指數(shù)報告》的時候。
Anthropic當(dāng)時和學(xué)術(shù)界兩位教授Rick Dakan和Joseph Feller聯(lián)手,提出了一個叫“4D AI流利度框架”的東西。他們的核心判斷是:過去大家總以為“會寫復(fù)雜提示詞”就等于會用AI,這個觀念太窄了。隨著模型越來越聰明,死記硬背提示詞模板已經(jīng)過時。
真正的高手掌握的是一種軟技能,叫“AI流利度”——就像熟練掌握一門外語,意味著能自然、高效、無縫地和AI協(xié)作,而不是每次對話都像在翻譯句子。
但怎么把這種感覺量化成數(shù)據(jù)?
研究團隊調(diào)用了隱私保護分析工具,全程無人工干預(yù):用Claude 4負責(zé)行為分類,Claude 3.5 Haiku負責(zé)語言檢測。然后,在一個瘋狂的數(shù)據(jù)采集周里,他們對9830段真實的、多輪拉鋸的匿名人類對話進行了深度掃描。
掃出來的結(jié)論很粗暴:這世界上AI用戶的差距,比人和狗的差距都大。
在他們設(shè)定的24項人機協(xié)作終極標(biāo)準(zhǔn)中,有13項發(fā)生在屏幕之外——比如你是不是對老板隱瞞了工作是AI做的,你有沒有考慮過AI生成內(nèi)容的倫理后果等等。而剩下的11項,就是在聊天框里能直接觀測到的絕對硬指標(biāo)。這11項,就是現(xiàn)在Claude“評分卡”的底層邏輯。
它們圍繞三個大維度展開:描述、委托、辨別。
11面照妖鏡,你在哪一步現(xiàn)了原形
維度一:描述——你真的知道自己想要什么嗎
很多人的對話框日常是:“幫我寫個周報”、“寫一個貪吃蛇代碼”。在Claude的評分體系里,這種指令的流利度幾乎為零。真正的高手會在“設(shè)定目標(biāo)”和“構(gòu)建對話”上投入明顯的精力。
明確目標(biāo)是第一關(guān)。低分玩家說“幫我潤色這段英文”,高分玩家說的是:“我要給硅谷的一家風(fēng)投機構(gòu)發(fā)Cold Email爭取融資,請幫我潤色這段英文,確保語氣自信但不過分傲慢。”有沒有解釋最終目的,直接決定了AI產(chǎn)出的可用度。
指定格式是第二關(guān)。高分玩家不會讓AI猜輸出形式,他們會直接要求:“用Markdown表格輸出”、“按3個小標(biāo)題加每段不超過50字的要點格式呈現(xiàn)”。這類要求看似簡單,但報告里大量低分對話都缺失了這一環(huán)。
接下來的兩條——提供示例和補充上下文——本質(zhì)上是同一個邏輯:別把AI當(dāng)肚子里的蛔蟲。讓AI干活前先喂給一個你認(rèn)可的范例,或者事先交代行業(yè)背景、目標(biāo)受眾特征、之前踩過的坑,都是在幫AI精準(zhǔn)定位你的腦回路。
維度二:委托——把AI當(dāng)合伙人,不是自動售貨機
報告里有一個反常識的發(fā)現(xiàn):最常見的AI流利度表現(xiàn)是“增強型”的,而不是“全自動型”的。也就是說,大量高流利度用戶把AI當(dāng)成思維碰撞機來用,不是直接把活兒全扔出去。這類對話展現(xiàn)的流利度,是那種簡短一來一回對話的兩倍多。
而迭代與精煉,是整份報告里最關(guān)鍵的預(yù)測因子——85.7%的高質(zhì)量對話中都包含這個行為。
低分玩家看到AI寫得爛,罵一句智障,然后開一個新對話。高分玩家的做法完全不同:“你第一點的方向?qū)α耍诙c太學(xué)術(shù)了。請保留第一點,把第二點換成更接地氣的生活案例,然后再試一次。”這種用AI的第一次回答當(dāng)跳板、持續(xù)修正的能力,是區(qū)分高手和萌新最硬的證據(jù)。
任務(wù)拆解和探討方法則是進階動作。別讓AI一次性寫十萬字小說,先說“我們先討論下大綱”,再到“基于大綱寫第一章前半部分”。動手之前先問一句:“你覺得解決這個問題最好的流程是什么?”讓AI先亮出思考路徑,你再來修正方向。
維度三:辨別——別被AI的花言巧語騙了
隨著大模型越來越聰明,它們的幻覺也編造得越來越逼真。Anthropic在這個維度上下了重注,塞了四個指標(biāo)進來。
質(zhì)疑推理:AI給出一個反直覺的結(jié)論或復(fù)雜代碼時,你有沒有追問一句“你得出這個結(jié)論的邏輯是什么”、“請逐行解釋這段代碼為什么這樣寫”?
事實核查:你是否要求AI為它拋出的數(shù)據(jù)提供引用來源,或者通過交叉提問來驗證準(zhǔn)確性?
識別缺失的上下文:AI給的方案看似完美,但脫離實際時,你能否敏銳指出來——“你剛才的分析忽略了我們公司目前預(yù)算只有1萬塊這個事實,請重新評估。”
評估結(jié)果:明確地對AI的產(chǎn)出進行評價,“你這次的比喻很精準(zhǔn),但結(jié)尾的情感升華還不夠,需要調(diào)整”。
這四條合在一起,本質(zhì)上是在考察一件事:你到底是在用AI,還是在被AI用。
那個讓人細思極恐的發(fā)現(xiàn)
但整份報告里最值得拿出來說的一個發(fā)現(xiàn),是一個叫“Artifact Paradox”的東西。
Claude最殺手級的功能就是Artifacts——可以隨時生成網(wǎng)頁、代碼、流程圖、互動界面的那個可視化窗口。在包含Artifacts的對話(樣本量1209段)和沒有Artifacts的對話(樣本量8621段)之間,研究團隊發(fā)現(xiàn)了一個令人不安的數(shù)據(jù)分化趨勢:描述行為和委托行為的使用率都上升了,但辨別維度的三個指標(biāo)全部下降。
翻譯成人話:Artifacts給你生成的精美網(wǎng)頁會讓你本能地想說“干得漂亮”,然后直接復(fù)制粘貼發(fā)給老板。你不會再去質(zhì)疑它的推理過程,不會再去做事實核查,也不會再去識別它遺漏了什么上下文。
好看的包裝正在系統(tǒng)性地瓦解人類對AI產(chǎn)出的辨別能力。
Anthropic這份報告和現(xiàn)在的評分功能,本質(zhì)上是在完成同一件事:把“會不會用AI”從一種模糊的感覺,變成一套可以逐條對照的行為清單。你可以不在每一條上都拿滿分,但你至少得知道自己哪條腿是瘸的。
7.5分不算高,但拿到這個分?jǐn)?shù)的那位網(wǎng)友,至少比那些還在把Claude當(dāng)自動售貨機的人強得多。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.