![]()
我們或許正站在一個微妙的轉折點上。過去,做出一份像樣的東西是有門檻的;今天,AI幾乎把這道門檻抹平了。當生成變得廉價,真正稀缺的不再是“能不能做出來”,而是“能不能看出它對不對”。2026年2月,Anthropic發布了《AI熟練度指數》(The AI Fluency Index)報告,基于Claude.ai上9830條真實對話,用量化方法描摹了人與AI協作的真實圖景。這近萬條對話畫出的圖景,比“我們越來越會用AI”復雜得多。沿著這份報告,本文想談三件事:
1、會“指揮”AI的人很多,會“質疑”它的人卻很少;
2、稀缺的能力,正從“生成”轉向“判斷”;
3、人們如何把判斷與責任重新握回自己手里。
一、會“指揮”AI的人很多,會“質疑”它的人很少
先看一個讓人樂觀的數字:85.7%的對話都存在“迭代精煉”,即用戶在拿到回答后會繼續追問、反駁或修正,而不是一次取走答案就走。而且越愛迭代的人,展現的熟練度行為越多——有迭代的對話平均出現2.67項行為,幾乎是無迭代對話(1.33項)的兩倍,質疑AI推理的概率高出5.6倍,識別AI缺失上下文的概率高出4倍。需要說明的是,報告坦言這只是相關而非因果,未必是“多聊幾輪”本身讓人更在行,更可能是本就在行的人更愿意多聊;但無論因果指向哪邊,迭代都是高熟練度最穩定的外在標志。
![]()
各項行為在“有迭代”與“無迭代”對話中的出現率對比,迭代組普遍更高(如“明確目標”54.5%對30.9%)。
值得注意的是在全部對話中,當AI生成完整的“成品”(如代碼、文檔、應用等)時,用戶對其產出的批判性評估和質疑程度反而會降低。在這類對話里,用戶的行為出現了一組方向相反的位移:一方面,前端“指揮”全面加碼——明確目標的概率上升14.7個百分點,指定格式上升14.5個百分點,提供范例上升13.4個百分點,連追問迭代也多了9.7個百分點;另一方面,后端“核查”卻集體退潮——識別缺失上下文下降5.2個百分點,核查事實下降3.7個百分點,質疑下降3.1個百分點。同一個人在同一段對話里,越是用力把成品催得漂亮,越是松開了驗證它的手,這是由于自動化偏差(automation bias)導致的,即系統給出的結果越完整、越流暢,人越傾向于默認它正確,主動校驗的意愿隨之讓渡。成品的“完成度”,就這樣被誤讀成了“可信度”。
![]()
有成品”與“無成品”對話的行為對比——描述類行為上升,而三項判斷類行為下降(核查事實?3.7pp、質疑推理?3.1pp、識別缺失上下文?5.2pp)。
說到底,AI最擅長的從來不是“正確”,而是“看起來正確”:格式工整、邏輯順滑、措辭專業,可其中的數據可能是杜撰的,結論可能是片面的,關鍵背景可能從一開始就缺席。因此,在與AI協作這件事上,我們大多是“偏科生”:擅長把需求說清、把任務派出去,卻疏于在AI交回成品后認真檢查與負責。要理解這種偏科從何而來,得先弄清楚:所謂“會用AI”,到底是一種什么能力。
二、稀缺的能力,正從“生成”轉向“判斷”
很多人對“AI熟練度”有一個根深蒂固的誤會,以為它約等于“會寫提示詞”。但回到這份報告所依據的“4D AI熟練度框架”(4D AI Fluency Framework),會用AI其實被拆成四個先后相扣的維度:描述、委派、判斷、擔責。這套劃分并非憑空歸納,而是建立在近萬條真實對話的觀測之上,每個維度都對應著可被識別、可被統計的具體行為,前面那些精確到小數點的數字正由此而來。在這套框架里,提示詞只屬于“描述”這一個維度中的一部分,約占整體的四分之一的四分之一。換句話說,把全部心思押在“怎么把話說漂亮”上,最多只練到了熟練度的十六分之一,真正的協作能力是一條更長的鏈條。
![]()
9830條對話中各項AI熟練度行為的出現頻率排序
不妨把這條鏈拆成“前半程”和“后半程”。前半程面向輸入:描述要求我們把目標、角色、格式、范例和邊界講清楚;委派要求我們判斷哪些任務適合自己做、哪些交給AI、哪些人機合作。這兩步本質上都在解決“怎么把東西做出來”,對應我們最熟悉的“生產”邏輯。后半程則面向輸出,才是協作真正下功夫的地方:判斷要求我們對AI給出的內容保持清醒——推理站不站得住、有沒有缺失上下文、事實經不經得起核查;擔責要求我們愿意為最終結果負責,而不是把“這是AI寫的”當成免責聲明。
![]()
會用AI的四步鏈條。前半程(描述、委派)解決“做出來”,后半程(判斷、擔責)解決“對不對”;稀缺的能力正從前半程滑向后半程。
判斷不是一種空泛的態度,它包含質疑AI推理、識別缺失上下文、核查事實。這三項的出現率都很低:質疑推理約15.8%,識別缺失上下文約20.3%,核查事實只有8.7%。作為對比,“描述”類行為中的明確目標高達51.1%,提供范例也有41.1%。我們做“描述”的頻率,是做“判斷”的兩到三倍,甚至更高。我們很愿意告訴AI該做什么,卻很少回頭追問它做得對不對。
判斷為什么比描述更難?一部分原因藏在測量里。框架的24項行為中,只有11項能在對話中被直接看到,另外13項發生在聊天界面之外——例如權衡分享AI內容的后果,或者向他人誠實說明AI的參與。這13項在某種程度上是熟練度最關鍵的維度,可它們屏幕上看不到,數據庫里也記不住。這帶來一個值得警惕的推論:判斷與擔責的缺失,很可能被嚴重低估了。描述會留下痕跡,判斷常常不會。看不見的能力,最難被衡量,也最難被培養。
三、把判斷與責任,重新握回自己手里
熟練使用AI最常見的形式是“增強式”(augmentative)使用——把AI當作思考的伙伴,在來回打磨中借力,而不是讓AI替自己拍板。與之相對的是“自動化式”使用:一句話丟過去,拿了成品就收工。兩者的差距在數字上很直觀:有迭代的對話,熟練使用AI的行為是無迭代的兩倍。追求“一次收工”看似高效,實則降低了熟練度。更長遠的代價在于,判斷是一種用進廢退的能力:我們越是把思考外包給AI,自己的判斷力越可能退化。
看清了遷移的方向,出路也就清楚了。這一代人要補的課,不是怎么生產,而是怎么判斷、怎么負責。這并非要退回不用AI的舊時代,而是把投入的重心從一味“指揮前端”挪一部分到“把關后端”。那些質疑推理、識別缺失上下文的用戶——正是把5.6倍、4倍這些數字撐起來的人是熟練度最高的一群;他們的共同點不是更會下指令,而是更愿意在成品面前多核查一遍。
模型可以把內容生成得無可挑剔,卻替不了我們判斷它該不該信、能不能用、要不要發出去。署名的是我們,采納的是我們,承擔后果的也是我們;從這個意義上說,AI介入之后,個體的責任不是變小,而是變大。重建判斷力并不需要多高的門檻:采納之前多問一句依據,轉發之前親手核對關鍵數據,驚嘆之前先想想它漏了什么、回避了什么。判斷不是不信任AI,而是把“看起來對”和“真的對”重新分開——這正是人區別于工具的地方,也是任何模型都無法代勞的部分。
四、結語
當AI讓“做出來”變得廉價,“看得準”就成了新的門檻。同一個工具,握在熟練度不同人的手里,產出會天差地別;而拉開差距的,往往不是誰更會指揮AI,而是誰更敢于、也更善于對它的產出較真。技術普惠不會自動帶來判斷力的普惠;越是身處一個“什么都看起來對”的環境,主動核實、獨立思考就越珍貴。把判斷與責任重新握回自己手里,或許正是這一代人在AI時代最該補上的能力。如果今天只想試一件最小的事,不妨回到你最近一次AI對話,在它那個看起來天衣無縫的回答下面,追加一句:“你覺得這個回答有沒有什么遺漏,或者站不住腳的地方?”會不會與AI協作的分水嶺,常常就藏在這后半程的一句追問里。
免責聲明:本文轉自“啟元洞見”。文章內容系原作者個人觀點,本公眾號編譯/轉載僅為分享、傳達不同觀點,如有任何異議,歡迎聯系我們!
轉自丨啟元洞見
作者丨啟元洞見
研究所簡介
國際技術經濟研究所(IITE)成立于1985年11月,是隸屬于國務院發展研究中心的非營利性研究機構,主要職能是研究我國經濟、科技社會發展中的重大政策性、戰略性、前瞻性問題,跟蹤和分析世界科技、經濟發展態勢,為中央和有關部委提供決策咨詢服務。“全球技術地圖”為國際技術經濟研究所官方微信賬號,致力于向公眾傳遞前沿技術資訊和科技創新洞見。
地址:北京市海淀區小南莊20號樓A座
電話:010-82635522
微信:iite_er
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.