網易首頁 > 網易號 > 正文申請入駐

Anthropic分析近萬條對話：AI時代，難的不再是“描述”，而是“判斷”

2026-06-18 16:06:06　來源: 全球技術地圖

北京舉報

分享至

我們或許正站在一個微妙的轉折點上。過去，做出一份像樣的東西是有門檻的；今天，AI幾乎把這道門檻抹平了。當生成變得廉價，真正稀缺的不再是“能不能做出來”，而是“能不能看出它對不對”。2026年2月，Anthropic發布了《AI熟練度指數》（The AI Fluency Index）報告，基于Claude.ai上9830條真實對話，用量化方法描摹了人與AI協作的真實圖景。這近萬條對話畫出的圖景，比“我們越來越會用AI”復雜得多。沿著這份報告，本文想談三件事：

1、會“指揮”AI的人很多，會“質疑”它的人卻很少；

2、稀缺的能力，正從“生成”轉向“判斷”；

3、人們如何把判斷與責任重新握回自己手里。

一、會“指揮”AI的人很多，會“質疑”它的人很少

先看一個讓人樂觀的數字：85.7%的對話都存在“迭代精煉”，即用戶在拿到回答后會繼續追問、反駁或修正，而不是一次取走答案就走。而且越愛迭代的人，展現的熟練度行為越多——有迭代的對話平均出現2.67項行為，幾乎是無迭代對話（1.33項）的兩倍，質疑AI推理的概率高出5.6倍，識別AI缺失上下文的概率高出4倍。需要說明的是，報告坦言這只是相關而非因果，未必是“多聊幾輪”本身讓人更在行，更可能是本就在行的人更愿意多聊；但無論因果指向哪邊，迭代都是高熟練度最穩定的外在標志。

各項行為在“有迭代”與“無迭代”對話中的出現率對比，迭代組普遍更高（如“明確目標”54.5%對30.9%）。

值得注意的是在全部對話中，當AI生成完整的“成品”（如代碼、文檔、應用等）時，用戶對其產出的批判性評估和質疑程度反而會降低。在這類對話里，用戶的行為出現了一組方向相反的位移：一方面，前端“指揮”全面加碼——明確目標的概率上升14.7個百分點，指定格式上升14.5個百分點，提供范例上升13.4個百分點，連追問迭代也多了9.7個百分點；另一方面，后端“核查”卻集體退潮——識別缺失上下文下降5.2個百分點，核查事實下降3.7個百分點，質疑下降3.1個百分點。同一個人在同一段對話里，越是用力把成品催得漂亮，越是松開了驗證它的手，這是由于自動化偏差（automation bias）導致的，即系統給出的結果越完整、越流暢，人越傾向于默認它正確，主動校驗的意愿隨之讓渡。成品的“完成度”，就這樣被誤讀成了“可信度”。

有成品”與“無成品”對話的行為對比——描述類行為上升，而三項判斷類行為下降（核查事實?3.7pp、質疑推理?3.1pp、識別缺失上下文?5.2pp）。

說到底，AI最擅長的從來不是“正確”，而是“看起來正確”：格式工整、邏輯順滑、措辭專業，可其中的數據可能是杜撰的，結論可能是片面的，關鍵背景可能從一開始就缺席。因此，在與AI協作這件事上，我們大多是“偏科生”：擅長把需求說清、把任務派出去，卻疏于在AI交回成品后認真檢查與負責。要理解這種偏科從何而來，得先弄清楚：所謂“會用AI”，到底是一種什么能力。

二、稀缺的能力，正從“生成”轉向“判斷”

很多人對“AI熟練度”有一個根深蒂固的誤會，以為它約等于“會寫提示詞”。但回到這份報告所依據的“4D AI熟練度框架”（4D AI Fluency Framework），會用AI其實被拆成四個先后相扣的維度：描述、委派、判斷、擔責。這套劃分并非憑空歸納，而是建立在近萬條真實對話的觀測之上，每個維度都對應著可被識別、可被統計的具體行為，前面那些精確到小數點的數字正由此而來。在這套框架里，提示詞只屬于“描述”這一個維度中的一部分，約占整體的四分之一的四分之一。換句話說，把全部心思押在“怎么把話說漂亮”上，最多只練到了熟練度的十六分之一，真正的協作能力是一條更長的鏈條。

9830條對話中各項AI熟練度行為的出現頻率排序

不妨把這條鏈拆成“前半程”和“后半程”。前半程面向輸入：描述要求我們把目標、角色、格式、范例和邊界講清楚；委派要求我們判斷哪些任務適合自己做、哪些交給AI、哪些人機合作。這兩步本質上都在解決“怎么把東西做出來”，對應我們最熟悉的“生產”邏輯。后半程則面向輸出，才是協作真正下功夫的地方：判斷要求我們對AI給出的內容保持清醒——推理站不站得住、有沒有缺失上下文、事實經不經得起核查；擔責要求我們愿意為最終結果負責，而不是把“這是AI寫的”當成免責聲明。

會用AI的四步鏈條。前半程（描述、委派）解決“做出來”，后半程（判斷、擔責）解決“對不對”；稀缺的能力正從前半程滑向后半程。

判斷不是一種空泛的態度，它包含質疑AI推理、識別缺失上下文、核查事實。這三項的出現率都很低：質疑推理約15.8%，識別缺失上下文約20.3%，核查事實只有8.7%。作為對比，“描述”類行為中的明確目標高達51.1%，提供范例也有41.1%。我們做“描述”的頻率，是做“判斷”的兩到三倍，甚至更高。我們很愿意告訴AI該做什么，卻很少回頭追問它做得對不對。

判斷為什么比描述更難？一部分原因藏在測量里。框架的24項行為中，只有11項能在對話中被直接看到，另外13項發生在聊天界面之外——例如權衡分享AI內容的后果，或者向他人誠實說明AI的參與。這13項在某種程度上是熟練度最關鍵的維度，可它們屏幕上看不到，數據庫里也記不住。這帶來一個值得警惕的推論：判斷與擔責的缺失，很可能被嚴重低估了。描述會留下痕跡，判斷常常不會。看不見的能力，最難被衡量，也最難被培養。

三、把判斷與責任，重新握回自己手里

熟練使用AI最常見的形式是“增強式”（augmentative）使用——把AI當作思考的伙伴，在來回打磨中借力，而不是讓AI替自己拍板。與之相對的是“自動化式”使用：一句話丟過去，拿了成品就收工。兩者的差距在數字上很直觀：有迭代的對話，熟練使用AI的行為是無迭代的兩倍。追求“一次收工”看似高效，實則降低了熟練度。更長遠的代價在于，判斷是一種用進廢退的能力：我們越是把思考外包給AI，自己的判斷力越可能退化。

看清了遷移的方向，出路也就清楚了。這一代人要補的課，不是怎么生產，而是怎么判斷、怎么負責。這并非要退回不用AI的舊時代，而是把投入的重心從一味“指揮前端”挪一部分到“把關后端”。那些質疑推理、識別缺失上下文的用戶——正是把5.6倍、4倍這些數字撐起來的人是熟練度最高的一群；他們的共同點不是更會下指令，而是更愿意在成品面前多核查一遍。

模型可以把內容生成得無可挑剔，卻替不了我們判斷它該不該信、能不能用、要不要發出去。署名的是我們，采納的是我們，承擔后果的也是我們；從這個意義上說，AI介入之后，個體的責任不是變小，而是變大。重建判斷力并不需要多高的門檻：采納之前多問一句依據，轉發之前親手核對關鍵數據，驚嘆之前先想想它漏了什么、回避了什么。判斷不是不信任AI，而是把“看起來對”和“真的對”重新分開——這正是人區別于工具的地方，也是任何模型都無法代勞的部分。

四、結語

當AI讓“做出來”變得廉價，“看得準”就成了新的門檻。同一個工具，握在熟練度不同人的手里，產出會天差地別；而拉開差距的，往往不是誰更會指揮AI，而是誰更敢于、也更善于對它的產出較真。技術普惠不會自動帶來判斷力的普惠；越是身處一個“什么都看起來對”的環境，主動核實、獨立思考就越珍貴。把判斷與責任重新握回自己手里，或許正是這一代人在AI時代最該補上的能力。如果今天只想試一件最小的事，不妨回到你最近一次AI對話，在它那個看起來天衣無縫的回答下面，追加一句：“你覺得這個回答有沒有什么遺漏，或者站不住腳的地方？”會不會與AI協作的分水嶺，常常就藏在這后半程的一句追問里。

免責聲明：本文轉自“啟元洞見”。文章內容系原作者個人觀點，本公眾號編譯/轉載僅為分享、傳達不同觀點，如有任何異議，歡迎聯系我們！

轉自丨啟元洞見

作者丨啟元洞見

研究所簡介

國際技術經濟研究所（IITE）成立于1985年11月，是隸屬于國務院發展研究中心的非營利性研究機構，主要職能是研究我國經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題，跟蹤和分析世界科技、經濟發展態勢，為中央和有關部委提供決策咨詢服務。“全球技術地圖”為國際技術經濟研究所官方微信賬號，致力于向公眾傳遞前沿技術資訊和科技創新洞見。

地址：北京市海淀區小南莊20號樓A座

電話：010-82635522

微信：iite_er

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

手機 / 數碼

房產 / 家居

Anthropic分析近萬條對話：AI時代，難的不再是“描述”，而是“判斷”