无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

給人類打分的AI現(xiàn)世:7.5分算優(yōu)秀,你扛得住這11條審視嗎?

0
分享至

ChatGPT還沒學(xué)會閉嘴,Claude已經(jīng)開始給你打分了。

過去我們拿著各種benchmark給AI跑分,現(xiàn)在倒了過來——上周末,Anthropic默默在Claude里塞進了一個叫“AI Fluency”的功能,直接掃描你的歷史對話,然后甩給你一張成績單。有手快的網(wǎng)友已經(jīng)跑出結(jié)果了:7.5分。


這件事之所以在海外AI圈炸開,不是因為技術(shù)多酷炫,而是AI點評人類的方式實在讓人后背發(fā)涼——它不是泛泛地說你“還不錯”,而是精準(zhǔn)地指著你的鼻子說:你在體育數(shù)據(jù)上一竅不通,你太依賴Connector了,你寫的廢話太多。

一個拿著教鞭的賽博導(dǎo)師,正式上崗了。

AI的“體檢報告”長什么樣

目前這個功能還在灰度測試階段,不是所有用戶都能看到。但體驗過的人描述的畫面很清晰:打開Claude的設(shè)置面板,找到“AI Fluency”專屬屏幕,點擊生成報告,幾秒鐘后,一份關(guān)于你AI使用習(xí)慣的診斷書就擺在眼前。

它掃描的范圍不止是你和Claude的日常閑聊。Chat里的零碎對話、Cowork協(xié)作空間的協(xié)作記錄,甚至是你在Claude Code里的硬核編程交互——全都被納入了評估范圍。滿分11分。

那位曬出7.5分的網(wǎng)友分享的弱點分析,措辭堪稱犀利:“報告指出我極其頻繁地使用各種Connector,但只要話題涉及體育數(shù)據(jù)、食譜,甚至地圖和地理位置,我就表現(xiàn)得一無所知。”

更絕的是,Claude不只是指問題,還直接上手給指導(dǎo)方案。它建議這位網(wǎng)友“主動通過情境激發(fā)AI的敏銳辨別力”,甚至具體要求:“在讓我寫第一稿之前,試著對我說——給我一個簡潔的要點摘要,不要任何前言廢話。這樣能讓你的初稿干凈得多。”

這不是冷冰冰的軟件反饋,這是一個恨鐵不成鋼的師傅在敲你腦殼。

功能泄露之后,社交媒體上開始出現(xiàn)大量討論帖。有位網(wǎng)友激動地沖到論壇發(fā)帖確認(rèn)自己沒瘋:“我生成了報告,結(jié)果回到筆記本電腦前,服務(wù)器報了個錯,功能就消失了!”這個驚鴻一瞥的泄露,把所有人的胃口吊到了極點。

9830段對話扒出的殘酷真相

要理解這11條評分標(biāo)準(zhǔn)從哪來,得把時間線往回拽——拽到Anthropic發(fā)布那篇《AI流利度指數(shù)報告》的時候。

Anthropic當(dāng)時和學(xué)術(shù)界兩位教授Rick Dakan和Joseph Feller聯(lián)手,提出了一個叫“4D AI流利度框架”的東西。他們的核心判斷是:過去大家總以為“會寫復(fù)雜提示詞”就等于會用AI,這個觀念太窄了。隨著模型越來越聰明,死記硬背提示詞模板已經(jīng)過時。

真正的高手掌握的是一種軟技能,叫“AI流利度”——就像熟練掌握一門外語,意味著能自然、高效、無縫地和AI協(xié)作,而不是每次對話都像在翻譯句子。

但怎么把這種感覺量化成數(shù)據(jù)?

研究團隊調(diào)用了隱私保護分析工具,全程無人工干預(yù):用Claude 4負責(zé)行為分類,Claude 3.5 Haiku負責(zé)語言檢測。然后,在一個瘋狂的數(shù)據(jù)采集周里,他們對9830段真實的、多輪拉鋸的匿名人類對話進行了深度掃描。

掃出來的結(jié)論很粗暴:這世界上AI用戶的差距,比人和狗的差距都大。

在他們設(shè)定的24項人機協(xié)作終極標(biāo)準(zhǔn)中,有13項發(fā)生在屏幕之外——比如你是不是對老板隱瞞了工作是AI做的,你有沒有考慮過AI生成內(nèi)容的倫理后果等等。而剩下的11項,就是在聊天框里能直接觀測到的絕對硬指標(biāo)。這11項,就是現(xiàn)在Claude“評分卡”的底層邏輯。

它們圍繞三個大維度展開:描述、委托、辨別。

11面照妖鏡,你在哪一步現(xiàn)了原形

維度一:描述——你真的知道自己想要什么嗎

很多人的對話框日常是:“幫我寫個周報”、“寫一個貪吃蛇代碼”。在Claude的評分體系里,這種指令的流利度幾乎為零。真正的高手會在“設(shè)定目標(biāo)”和“構(gòu)建對話”上投入明顯的精力。

明確目標(biāo)是第一關(guān)。低分玩家說“幫我潤色這段英文”,高分玩家說的是:“我要給硅谷的一家風(fēng)投機構(gòu)發(fā)Cold Email爭取融資,請幫我潤色這段英文,確保語氣自信但不過分傲慢。”有沒有解釋最終目的,直接決定了AI產(chǎn)出的可用度。

指定格式是第二關(guān)。高分玩家不會讓AI猜輸出形式,他們會直接要求:“用Markdown表格輸出”、“按3個小標(biāo)題加每段不超過50字的要點格式呈現(xiàn)”。這類要求看似簡單,但報告里大量低分對話都缺失了這一環(huán)。

接下來的兩條——提供示例補充上下文——本質(zhì)上是同一個邏輯:別把AI當(dāng)肚子里的蛔蟲。讓AI干活前先喂給一個你認(rèn)可的范例,或者事先交代行業(yè)背景、目標(biāo)受眾特征、之前踩過的坑,都是在幫AI精準(zhǔn)定位你的腦回路。

維度二:委托——把AI當(dāng)合伙人,不是自動售貨機

報告里有一個反常識的發(fā)現(xiàn):最常見的AI流利度表現(xiàn)是“增強型”的,而不是“全自動型”的。也就是說,大量高流利度用戶把AI當(dāng)成思維碰撞機來用,不是直接把活兒全扔出去。這類對話展現(xiàn)的流利度,是那種簡短一來一回對話的兩倍多。

迭代與精煉,是整份報告里最關(guān)鍵的預(yù)測因子——85.7%的高質(zhì)量對話中都包含這個行為。

低分玩家看到AI寫得爛,罵一句智障,然后開一個新對話。高分玩家的做法完全不同:“你第一點的方向?qū)α耍诙c太學(xué)術(shù)了。請保留第一點,把第二點換成更接地氣的生活案例,然后再試一次。”這種用AI的第一次回答當(dāng)跳板、持續(xù)修正的能力,是區(qū)分高手和萌新最硬的證據(jù)。

任務(wù)拆解探討方法則是進階動作。別讓AI一次性寫十萬字小說,先說“我們先討論下大綱”,再到“基于大綱寫第一章前半部分”。動手之前先問一句:“你覺得解決這個問題最好的流程是什么?”讓AI先亮出思考路徑,你再來修正方向。

維度三:辨別——別被AI的花言巧語騙了

隨著大模型越來越聰明,它們的幻覺也編造得越來越逼真。Anthropic在這個維度上下了重注,塞了四個指標(biāo)進來。

質(zhì)疑推理:AI給出一個反直覺的結(jié)論或復(fù)雜代碼時,你有沒有追問一句“你得出這個結(jié)論的邏輯是什么”、“請逐行解釋這段代碼為什么這樣寫”?

事實核查:你是否要求AI為它拋出的數(shù)據(jù)提供引用來源,或者通過交叉提問來驗證準(zhǔn)確性?

識別缺失的上下文:AI給的方案看似完美,但脫離實際時,你能否敏銳指出來——“你剛才的分析忽略了我們公司目前預(yù)算只有1萬塊這個事實,請重新評估。”

評估結(jié)果:明確地對AI的產(chǎn)出進行評價,“你這次的比喻很精準(zhǔn),但結(jié)尾的情感升華還不夠,需要調(diào)整”。

這四條合在一起,本質(zhì)上是在考察一件事:你到底是在用AI,還是在被AI用。

那個讓人細思極恐的發(fā)現(xiàn)

但整份報告里最值得拿出來說的一個發(fā)現(xiàn),是一個叫“Artifact Paradox”的東西。

Claude最殺手級的功能就是Artifacts——可以隨時生成網(wǎng)頁、代碼、流程圖、互動界面的那個可視化窗口。在包含Artifacts的對話(樣本量1209段)和沒有Artifacts的對話(樣本量8621段)之間,研究團隊發(fā)現(xiàn)了一個令人不安的數(shù)據(jù)分化趨勢:描述行為和委托行為的使用率都上升了,但辨別維度的三個指標(biāo)全部下降。

翻譯成人話:Artifacts給你生成的精美網(wǎng)頁會讓你本能地想說“干得漂亮”,然后直接復(fù)制粘貼發(fā)給老板。你不會再去質(zhì)疑它的推理過程,不會再去做事實核查,也不會再去識別它遺漏了什么上下文。

好看的包裝正在系統(tǒng)性地瓦解人類對AI產(chǎn)出的辨別能力。

Anthropic這份報告和現(xiàn)在的評分功能,本質(zhì)上是在完成同一件事:把“會不會用AI”從一種模糊的感覺,變成一套可以逐條對照的行為清單。你可以不在每一條上都拿滿分,但你至少得知道自己哪條腿是瘸的。

7.5分不算高,但拿到這個分?jǐn)?shù)的那位網(wǎng)友,至少比那些還在把Claude當(dāng)自動售貨機的人強得多。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
他火線出場!!中國隊危險了!!

他火線出場!!中國隊危險了!!

柚子說球
2026-05-30 16:51:12
網(wǎng)紅邊牧被殺后續(xù)!狗主人舉證艱難,就算硬扛到底,也恐難轉(zhuǎn)刑事

網(wǎng)紅邊牧被殺后續(xù)!狗主人舉證艱難,就算硬扛到底,也恐難轉(zhuǎn)刑事

奇思妙想草葉君
2026-05-30 16:59:53
鞠萍6月1日正式退休!她離婚又再婚,潤滑兒子與兩位父親的關(guān)系

鞠萍6月1日正式退休!她離婚又再婚,潤滑兒子與兩位父親的關(guān)系

鄉(xiāng)野小珥
2026-05-31 01:05:00
給別人當(dāng)繼父是什么感覺?網(wǎng)友:養(yǎng)了20年,下班晚沒做飯,喊我滾

給別人當(dāng)繼父是什么感覺?網(wǎng)友:養(yǎng)了20年,下班晚沒做飯,喊我滾

夜深愛雜談
2026-05-28 07:55:43
山東更新房貸政策:首套房首付比例降至25% 全面取消房貸利率下限

山東更新房貸政策:首套房首付比例降至25% 全面取消房貸利率下限

全球財經(jīng)網(wǎng)
2026-05-30 23:53:20
普京表示對羅馬尼亞的無人機墜毀不承擔(dān)任何責(zé)任,并呼吁俄自查

普京表示對羅馬尼亞的無人機墜毀不承擔(dān)任何責(zé)任,并呼吁俄自查

一種觀點
2026-05-30 13:39:45
大連一空地多輛小車被燒成空架,知情人:明火已被撲滅,沒有人員受傷

大連一空地多輛小車被燒成空架,知情人:明火已被撲滅,沒有人員受傷

極目新聞
2026-05-30 19:06:16
謝霆鋒北京演唱會,王菲低調(diào)現(xiàn)身,激動到落淚,魯豫俞飛鴻也在

謝霆鋒北京演唱會,王菲低調(diào)現(xiàn)身,激動到落淚,魯豫俞飛鴻也在

妙知
2026-05-31 01:52:53
NBA運氣之王!打了3年替補,卻被7500萬砸中,直接躺平到退休

NBA運氣之王!打了3年替補,卻被7500萬砸中,直接躺平到退休

體壇熱評
2026-05-28 15:47:45
余秋雨在印考察很沮喪,印前部長安慰:中國再過25年就能趕上我們

余秋雨在印考察很沮喪,印前部長安慰:中國再過25年就能趕上我們

抽象派大師
2026-05-30 04:21:16
中國沒給面子,普京回國后認(rèn)清現(xiàn)實,沉默一周后,終究還是妥協(xié)了

中國沒給面子,普京回國后認(rèn)清現(xiàn)實,沉默一周后,終究還是妥協(xié)了

聞識
2026-05-31 00:05:37
當(dāng)了酒店前臺才知道的秘密!瓜太多了,吃不過來了!

當(dāng)了酒店前臺才知道的秘密!瓜太多了,吃不過來了!

夜深愛雜談
2026-05-27 07:50:31
鬧大了!李晨鄭愷停宣再升級,更多欺凌片段曝出,沙溢評論區(qū)淪陷

鬧大了!李晨鄭愷停宣再升級,更多欺凌片段曝出,沙溢評論區(qū)淪陷

精彩背后
2026-05-28 09:57:23
賈慶林,接見211大學(xué)書記、校長

賈慶林,接見211大學(xué)書記、校長

雙一流高校
2026-05-29 00:11:33
中國貿(mào)促會:堅決反對歐盟推進《網(wǎng)絡(luò)安全法》

中國貿(mào)促會:堅決反對歐盟推進《網(wǎng)絡(luò)安全法》

新京報
2026-05-29 23:41:40
被背叛后我追問了兩個月,終于明白答案根本不重要

被背叛后我追問了兩個月,終于明白答案根本不重要

晚風(fēng)也遺憾
2026-05-30 01:10:31
著名球星、英格蘭前國腳被捕!

著名球星、英格蘭前國腳被捕!

湖報體育
2026-05-30 16:11:54
罕見:企業(yè)因取得上游供應(yīng)商虛開發(fā)票被罰滯納金狀告稅務(wù)局,一審二審竟全部勝訴

罕見:企業(yè)因取得上游供應(yīng)商虛開發(fā)票被罰滯納金狀告稅務(wù)局,一審二審竟全部勝訴

新浪財經(jīng)
2026-05-30 23:13:41
歐冠決賽前致命一擊!巴薩趁火打劫搶阿森納王牌,阿爾特塔氣炸!

歐冠決賽前致命一擊!巴薩趁火打劫搶阿森納王牌,阿爾特塔氣炸!

瀾歸序
2026-05-30 07:25:30
炸出蘑菇云,貝索斯130億美金火箭爆炸,馬斯克徹底壟斷美國航天

炸出蘑菇云,貝索斯130億美金火箭爆炸,馬斯克徹底壟斷美國航天

李將平老師
2026-05-30 13:13:22
2026-05-31 07:56:49
碼上閑敘
碼上閑敘
有態(tài)度網(wǎng)友ytd
5538文章數(shù) 54關(guān)注度
往期回顧 全部

科技要聞

車圈大佬發(fā)聲:價格戰(zhàn)遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業(yè)無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業(yè)無動于衷

體育要聞

巴黎再度捧起歐冠獎杯 槍手眾將黯然神傷

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經(jīng)要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領(lǐng)克10+&領(lǐng)克10上市16.99萬元起

態(tài)度原創(chuàng)

教育
藝術(shù)
健康
時尚
房產(chǎn)

教育要聞

氧化還原反應(yīng)方程式的配平

藝術(shù)要聞

我想有個小院,從此荒度余生

嘗試干細胞療法如何避免踩坑?

美回巔峰的她們,帶火的這些爆款真的好用嗎

房產(chǎn)要聞

紅動五月!全國搶入核心資產(chǎn),廣州盯緊凱旋新世界!

無障礙瀏覽 進入關(guān)懷版