給人類打分的AI現(xiàn)世：7.5分算優(yōu)秀，你扛得住這11條審視嗎？

2026-05-31 02:42:30　來源: 碼上閑敘

北京舉報

分享至

ChatGPT還沒學(xué)會閉嘴，Claude已經(jīng)開始給你打分了。

過去我們拿著各種benchmark給AI跑分，現(xiàn)在倒了過來——上周末，Anthropic默默在Claude里塞進了一個叫“AI Fluency”的功能，直接掃描你的歷史對話，然后甩給你一張成績單。有手快的網(wǎng)友已經(jīng)跑出結(jié)果了：7.5分。

這件事之所以在海外AI圈炸開，不是因為技術(shù)多酷炫，而是AI點評人類的方式實在讓人后背發(fā)涼——它不是泛泛地說你“還不錯”，而是精準(zhǔn)地指著你的鼻子說：你在體育數(shù)據(jù)上一竅不通，你太依賴Connector了，你寫的廢話太多。

一個拿著教鞭的賽博導(dǎo)師，正式上崗了。

AI的“體檢報告”長什么樣

目前這個功能還在灰度測試階段，不是所有用戶都能看到。但體驗過的人描述的畫面很清晰：打開Claude的設(shè)置面板，找到“AI Fluency”專屬屏幕，點擊生成報告，幾秒鐘后，一份關(guān)于你AI使用習(xí)慣的診斷書就擺在眼前。

它掃描的范圍不止是你和Claude的日常閑聊。Chat里的零碎對話、Cowork協(xié)作空間的協(xié)作記錄，甚至是你在Claude Code里的硬核編程交互——全都被納入了評估范圍。滿分11分。

那位曬出7.5分的網(wǎng)友分享的弱點分析，措辭堪稱犀利：“報告指出我極其頻繁地使用各種Connector，但只要話題涉及體育數(shù)據(jù)、食譜，甚至地圖和地理位置，我就表現(xiàn)得一無所知。”

更絕的是，Claude不只是指問題，還直接上手給指導(dǎo)方案。它建議這位網(wǎng)友“主動通過情境激發(fā)AI的敏銳辨別力”，甚至具體要求：“在讓我寫第一稿之前，試著對我說——給我一個簡潔的要點摘要，不要任何前言廢話。這樣能讓你的初稿干凈得多。”

這不是冷冰冰的軟件反饋，這是一個恨鐵不成鋼的師傅在敲你腦殼。

功能泄露之后，社交媒體上開始出現(xiàn)大量討論帖。有位網(wǎng)友激動地沖到論壇發(fā)帖確認(rèn)自己沒瘋：“我生成了報告，結(jié)果回到筆記本電腦前，服務(wù)器報了個錯，功能就消失了！”這個驚鴻一瞥的泄露，把所有人的胃口吊到了極點。

9830段對話扒出的殘酷真相

要理解這11條評分標(biāo)準(zhǔn)從哪來，得把時間線往回拽——拽到Anthropic發(fā)布那篇《AI流利度指數(shù)報告》的時候。

Anthropic當(dāng)時和學(xué)術(shù)界兩位教授Rick Dakan和Joseph Feller聯(lián)手，提出了一個叫“4D AI流利度框架”的東西。他們的核心判斷是：過去大家總以為“會寫復(fù)雜提示詞”就等于會用AI，這個觀念太窄了。隨著模型越來越聰明，死記硬背提示詞模板已經(jīng)過時。

真正的高手掌握的是一種軟技能，叫“AI流利度”——就像熟練掌握一門外語，意味著能自然、高效、無縫地和AI協(xié)作，而不是每次對話都像在翻譯句子。

但怎么把這種感覺量化成數(shù)據(jù)？

研究團隊調(diào)用了隱私保護分析工具，全程無人工干預(yù)：用Claude 4負責(zé)行為分類，Claude 3.5 Haiku負責(zé)語言檢測。然后，在一個瘋狂的數(shù)據(jù)采集周里，他們對9830段真實的、多輪拉鋸的匿名人類對話進行了深度掃描。

掃出來的結(jié)論很粗暴：這世界上AI用戶的差距，比人和狗的差距都大。

在他們設(shè)定的24項人機協(xié)作終極標(biāo)準(zhǔn)中，有13項發(fā)生在屏幕之外——比如你是不是對老板隱瞞了工作是AI做的，你有沒有考慮過AI生成內(nèi)容的倫理后果等等。而剩下的11項，就是在聊天框里能直接觀測到的絕對硬指標(biāo)。這11項，就是現(xiàn)在Claude“評分卡”的底層邏輯。

它們圍繞三個大維度展開：描述、委托、辨別。

11面照妖鏡，你在哪一步現(xiàn)了原形

維度一：描述——你真的知道自己想要什么嗎

很多人的對話框日常是：“幫我寫個周報”、“寫一個貪吃蛇代碼”。在Claude的評分體系里，這種指令的流利度幾乎為零。真正的高手會在“設(shè)定目標(biāo)”和“構(gòu)建對話”上投入明顯的精力。

明確目標(biāo)是第一關(guān)。低分玩家說“幫我潤色這段英文”，高分玩家說的是：“我要給硅谷的一家風(fēng)投機構(gòu)發(fā)Cold Email爭取融資，請幫我潤色這段英文，確保語氣自信但不過分傲慢。”有沒有解釋最終目的，直接決定了AI產(chǎn)出的可用度。

指定格式是第二關(guān)。高分玩家不會讓AI猜輸出形式，他們會直接要求：“用Markdown表格輸出”、“按3個小標(biāo)題加每段不超過50字的要點格式呈現(xiàn)”。這類要求看似簡單，但報告里大量低分對話都缺失了這一環(huán)。

接下來的兩條——提供示例和補充上下文——本質(zhì)上是同一個邏輯：別把AI當(dāng)肚子里的蛔蟲。讓AI干活前先喂給一個你認(rèn)可的范例，或者事先交代行業(yè)背景、目標(biāo)受眾特征、之前踩過的坑，都是在幫AI精準(zhǔn)定位你的腦回路。

維度二：委托——把AI當(dāng)合伙人，不是自動售貨機

報告里有一個反常識的發(fā)現(xiàn)：最常見的AI流利度表現(xiàn)是“增強型”的，而不是“全自動型”的。也就是說，大量高流利度用戶把AI當(dāng)成思維碰撞機來用，不是直接把活兒全扔出去。這類對話展現(xiàn)的流利度，是那種簡短一來一回對話的兩倍多。

而迭代與精煉，是整份報告里最關(guān)鍵的預(yù)測因子——85.7%的高質(zhì)量對話中都包含這個行為。

低分玩家看到AI寫得爛，罵一句智障，然后開一個新對話。高分玩家的做法完全不同：“你第一點的方向?qū)α耍诙c太學(xué)術(shù)了。請保留第一點，把第二點換成更接地氣的生活案例，然后再試一次。”這種用AI的第一次回答當(dāng)跳板、持續(xù)修正的能力，是區(qū)分高手和萌新最硬的證據(jù)。

任務(wù)拆解和探討方法則是進階動作。別讓AI一次性寫十萬字小說，先說“我們先討論下大綱”，再到“基于大綱寫第一章前半部分”。動手之前先問一句：“你覺得解決這個問題最好的流程是什么？”讓AI先亮出思考路徑，你再來修正方向。

維度三：辨別——別被AI的花言巧語騙了

隨著大模型越來越聰明，它們的幻覺也編造得越來越逼真。Anthropic在這個維度上下了重注，塞了四個指標(biāo)進來。

質(zhì)疑推理：AI給出一個反直覺的結(jié)論或復(fù)雜代碼時，你有沒有追問一句“你得出這個結(jié)論的邏輯是什么”、“請逐行解釋這段代碼為什么這樣寫”？

事實核查：你是否要求AI為它拋出的數(shù)據(jù)提供引用來源，或者通過交叉提問來驗證準(zhǔn)確性？

識別缺失的上下文：AI給的方案看似完美，但脫離實際時，你能否敏銳指出來——“你剛才的分析忽略了我們公司目前預(yù)算只有1萬塊這個事實，請重新評估。”

評估結(jié)果：明確地對AI的產(chǎn)出進行評價，“你這次的比喻很精準(zhǔn)，但結(jié)尾的情感升華還不夠，需要調(diào)整”。

這四條合在一起，本質(zhì)上是在考察一件事：你到底是在用AI，還是在被AI用。

那個讓人細思極恐的發(fā)現(xiàn)

但整份報告里最值得拿出來說的一個發(fā)現(xiàn)，是一個叫“Artifact Paradox”的東西。

Claude最殺手級的功能就是Artifacts——可以隨時生成網(wǎng)頁、代碼、流程圖、互動界面的那個可視化窗口。在包含Artifacts的對話（樣本量1209段）和沒有Artifacts的對話（樣本量8621段）之間，研究團隊發(fā)現(xiàn)了一個令人不安的數(shù)據(jù)分化趨勢：描述行為和委托行為的使用率都上升了，但辨別維度的三個指標(biāo)全部下降。

翻譯成人話：Artifacts給你生成的精美網(wǎng)頁會讓你本能地想說“干得漂亮”，然后直接復(fù)制粘貼發(fā)給老板。你不會再去質(zhì)疑它的推理過程，不會再去做事實核查，也不會再去識別它遺漏了什么上下文。

好看的包裝正在系統(tǒng)性地瓦解人類對AI產(chǎn)出的辨別能力。

Anthropic這份報告和現(xiàn)在的評分功能，本質(zhì)上是在完成同一件事：把“會不會用AI”從一種模糊的感覺，變成一套可以逐條對照的行為清單。你可以不在每一條上都拿滿分，但你至少得知道自己哪條腿是瘸的。

7.5分不算高，但拿到這個分?jǐn)?shù)的那位網(wǎng)友，至少比那些還在把Claude當(dāng)自動售貨機的人強得多。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.