![]()
個人電腦用了十幾年才走進(jìn)半數(shù)家庭,互聯(lián)網(wǎng)花了七年覆蓋過半網(wǎng)民。AI 只用了三年,滲透率就飆到 53%。斯坦福 HAI 研究所最新發(fā)布的《2026 AI 指數(shù)報告》給出這個數(shù)字時,連研究者自己都愣了一下——技術(shù)擴(kuò)散的速度刷新了歷史紀(jì)錄,但"負(fù)責(zé)任 AI"的進(jìn)度條幾乎沒動。
這份 423 頁的厚報告,由人類研究員主筆,ChatGPT 和 Claude 打雜,Google 和 OpenAI 們掏錢贊助。它追蹤的不只是技術(shù)參數(shù),還有 AI 在現(xiàn)實(shí)世界里制造的麻煩。2024 年記錄在案的 AI 事故是 233 起,2025 年跳到 362 起,漲幅 55%。事故定義很直白:AI 系統(tǒng)部署后造成的實(shí)際傷害或險些傷害。
當(dāng)律師把假案號喂給法庭
美國第六巡回上訴法庭最近點(diǎn)名批評了一起案件:律師用 AI 生成法律文件,里面塞了"超過二十四個虛假引用和事實(shí)誤述"。法官沒客氣,直接把這事寫進(jìn)意見書里。斯坦福團(tuán)隊把這當(dāng)成典型案例——AI 能力跑在前頭,安全基準(zhǔn)線落在后頭。
組織層面的 AI 采用率已經(jīng)沖到 88%,大學(xué)生群體約 80% 坦承在用。但"用得上"和"用得好"是兩件事。SWE-bench 測試顯示,AI 處理真實(shí) GitHub 問題的成功率從 60% 躥到接近 100%,只用了一年時間。編程能力突飛猛進(jìn),其他領(lǐng)域卻瘸著腿走路。
AA-Omniscient 指數(shù)專門測一件事:模型會不會承認(rèn)自己不知道,而不是瞎蒙。26 個主流模型的幻覺率從 22% 到 94% 不等,差距大到離譜。換句話說,你用的那個 AI 可能是個老實(shí)人,也可能是個滿嘴跑火車的騙子——而用戶根本分不清。
更荒誕的是基礎(chǔ)能力缺口。ClockBench 基準(zhǔn)測試?yán)铮琌penAI 的 GPT-5.4 High 讀模擬時鐘的正確率只有 50.6%,普通人類能做到 90%。機(jī)器人更慘,BEHAVIOR-1K 模擬環(huán)境下完成家務(wù)任務(wù)的成功率僅 12%。能寫代碼的 AI,看不懂表;能聊天的 AI,擦不了桌子。
專家和公眾唯一共識:要出事
斯坦福報告挖了一層有趣的數(shù)據(jù):AI 專家和美國公眾在幾乎所有問題上都吵得不可開交,唯獨(dú)在兩個領(lǐng)域罕見地達(dá)成一致——選舉和人際關(guān)系,會被 AI 搞砸。
64% 的美國公眾認(rèn)為,未來 AI 會減少人類可用的工作崗位。專家群體對這個預(yù)測分歧極大,但沒人否認(rèn)技術(shù)正在重塑勞動市場。真正讓兩邊同時皺眉的,是 AI 對信息環(huán)境和情感連接的滲透。
選舉場景里,深度偽造(Deepfake)和自動化信息操控已經(jīng)不算新聞。2024 年多國大選期間,AI 生成的偽造音視頻在社交平臺瘋傳,從候選人"說"從未說過的話,到完全虛構(gòu)的丑聞片段。監(jiān)管和檢測工具的反應(yīng)速度,明顯跟不上偽造技術(shù)的迭代節(jié)奏。
人際關(guān)系維度更隱蔽,也更難量化。AI 伴侶應(yīng)用的用戶規(guī)模在 2023-2025 年間翻了數(shù)倍,Replika、Character.AI 等產(chǎn)品把"情感勞動"外包給算法。斯坦福報告沒給具體用戶數(shù),但引用了多項調(diào)查:相當(dāng)比例的年輕人認(rèn)為 AI 關(guān)系"比真人更輕松",同時承認(rèn)這讓他們更回避現(xiàn)實(shí)社交。
技術(shù)提供了一種替代方案,而替代方案正在改變?nèi)藗儗?正常關(guān)系"的定義。
![]()
責(zé)任 AI 的基準(zhǔn)線,還在用 2022 年的尺子
報告里有個細(xì)節(jié)容易被忽略:主流 AI 安全基準(zhǔn)的更新頻率,遠(yuǎn)低于模型本身的迭代速度。很多測試集還是 2022 年設(shè)計的,當(dāng)時 GPT-3.5 都算前沿。現(xiàn)在拿來測 GPT-5 級別的系統(tǒng),相當(dāng)于用小學(xué)試卷考大學(xué)生——分?jǐn)?shù)虛高,隱患被掩蓋。
企業(yè)端的"負(fù)責(zé)任 AI"投入也在縮水。報告追蹤了頭部 AI 公司的安全團(tuán)隊變動:2024 年以來,多個知名安全研究機(jī)構(gòu)被裁撤或重組,核心人員流向創(chuàng)業(yè)團(tuán)隊或完全離開行業(yè)。公開理由是"整合資源",但時間點(diǎn)和產(chǎn)品發(fā)布節(jié)奏高度重合。
資助方名單本身也說明問題。Google、OpenAI、Anthropic、Microsoft 同時出現(xiàn)在贊助商和報告批評對象的位置上。斯坦福 HAI 的獨(dú)立性聲明寫了兩頁,但讀者自有判斷——當(dāng)裁判和運(yùn)動員共享更衣室,哨子會不會偏音?
公眾感知層面,信任度曲線在 2024 年達(dá)到頂峰后回落。皮尤研究中心的同期數(shù)據(jù)顯示,認(rèn)為 AI"利大于弊"的美國人比例從 52% 降至 41%。專家群體的樂觀情緒反而更穩(wěn)定,形成一道認(rèn)知鴻溝。斯坦福報告試圖解釋這種分裂:專家看的是技術(shù)潛力,公眾嘗的是落地苦果。
三年走完別人十年的路,代價是什么
AI 的擴(kuò)散速度確實(shí)創(chuàng)造了歷史。個人電腦從誕生到 53% 滲透率用了約 15 年,互聯(lián)網(wǎng)用了 7 年,智能手機(jī)用了 5 年。AI 把這個周期壓縮到 3 年,靠的不是硬件成本下降,而是云端 API 的即時觸達(dá)——用戶不需要買設(shè)備,注冊個賬號就能用上頂級模型。
這種"輕資產(chǎn)" adoption 模式跳過了技術(shù)擴(kuò)散的傳統(tǒng)階段。沒有裝機(jī)量的緩慢爬坡,沒有寬帶基礎(chǔ)設(shè)施的十年鋪設(shè),風(fēng)險也隨之同步抵達(dá)。2024 年的 233 起事故到 2025 年的 362 起,增幅曲線和采用率曲線幾乎平行。
事故類型也在演變。早期多是算法偏見、推薦系統(tǒng)失控這類"系統(tǒng)內(nèi)"問題;2024 年以來,"用戶主動濫用"占比明顯上升——用 AI 批量生成釣魚郵件、偽造身份文檔、制作非自愿色情內(nèi)容。工具越易用,濫用門檻越低。
斯坦福團(tuán)隊沒有給出 2026 年的事故預(yù)測數(shù)字。但報告引用了 AI Incident Database 維護(hù)者的話:「我們記錄的速度已經(jīng)跟不上發(fā)生的速度。」
選舉和人際關(guān)系,一個是社會協(xié)作的底層協(xié)議,一個是人類經(jīng)驗(yàn)的私密核心。AI 同時侵入這兩個領(lǐng)域,意味著技術(shù)影響從"效率工具"層面向"意義生成"層面躍遷。它不再只是幫你寫郵件更快,而是在幫你決定相信什么、愛誰、如何被愛。
報告結(jié)尾處有個容易被跳過的附錄:研究者用 GPT-4o 和 Claude 3.5 輔助完成了部分?jǐn)?shù)據(jù)整理和圖表生成。腳注里特意標(biāo)注了"人類最終審核"。這個細(xì)節(jié)像是一個微縮隱喻——我們還在試圖劃清人機(jī)邊界,但邊界本身已經(jīng)模糊。
下一次大選周期里,你會怎么驗(yàn)證一段視頻的真?zhèn)危慨?dāng)你的朋友開始認(rèn)真談?wù)?AI 伴侶比前任更懂我"時,你會怎么回應(yīng)?
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.