![]()
人工智能的普及速度超過了個(gè)人電腦和互聯(lián)網(wǎng),僅用三年時(shí)間就覆蓋了53%的人口。與此同時(shí),AI引發(fā)的有害事件數(shù)量也在同步攀升。專家與普通民眾普遍認(rèn)為,影響將主要集中在兩個(gè)領(lǐng)域:選舉和人際關(guān)系。
根據(jù)斯坦福大學(xué)以人為本人工智能研究所(HAI)發(fā)布的《2026年AI指數(shù)報(bào)告》,"負(fù)責(zé)任的AI發(fā)展速度沒能跟上AI能力提升的步伐,安全基準(zhǔn)落后,事故數(shù)量急劇上升。"
報(bào)告指出,根據(jù)AI事故數(shù)據(jù)庫的定義,有據(jù)可查的AI事故——即"由人工智能系統(tǒng)部署在現(xiàn)實(shí)世界中造成的實(shí)際傷害或潛在傷害"——2025年達(dá)到362起,高于2024年的233起。
這與AI應(yīng)用的快速擴(kuò)張相吻合:88%的企業(yè)表示正在使用AI,約80%的大學(xué)生也坦承在使用AI。
一種可能的解釋是,AI模型在編程方面已經(jīng)相當(dāng)出色。在SWE-bench測試中,AI處理真實(shí)GitHub問題的得分在一年內(nèi)從60%躍升至接近100%。
然而,單一基準(zhǔn)的高分并不能反映全貌,因?yàn)樗蠥I模型都有各自的短板。在專門評(píng)估模型是否會(huì)在不確定時(shí)承認(rèn)局限、而非隨意猜測的AA全知指數(shù)測試中,26個(gè)模型的幻覺率從22%到94%不等。
當(dāng)律師借助AI模型偽造"超過二十余處引用和事實(shí)陳述",并被美國第六巡回上訴法院點(diǎn)名批評(píng)時(shí),這正是斯坦福HAI研究人員所說的"負(fù)責(zé)任的AI沒能跟上實(shí)際使用步伐"的典型案例。
盡管外界對AI超級(jí)智能議論紛紛,但在識(shí)別時(shí)間這件事上,AI的表現(xiàn)遠(yuǎn)不如人類。ClockBench基準(zhǔn)測試顯示,截至2026年3月,OpenAI的GPT-5.4 High正確讀取指針式時(shí)鐘的成功率僅為50.6%,而"非專業(yè)人類"的正確率約為90%。
機(jī)器人的表現(xiàn)則更加遜色,根據(jù)BEHAVIOR-1K仿真基準(zhǔn)測試,機(jī)器人完成家庭任務(wù)的成功率僅為12%。
這份長達(dá)423頁的HAI報(bào)告,代表了斯坦福團(tuán)隊(duì)對當(dāng)前AI研究現(xiàn)狀及其社會(huì)影響的全面梳理。報(bào)告由人類研究員借助ChatGPT和Claude協(xié)助撰寫,同時(shí)獲得了谷歌、OpenAI等機(jī)構(gòu)的資金支持。報(bào)告的研究結(jié)論不止于"負(fù)責(zé)任的AI"供給不足,還涵蓋了AI行業(yè)的多個(gè)層面。
在公眾輿論方面,報(bào)告發(fā)現(xiàn):"AI專家與美國公眾在AI未來的幾乎所有問題上看法相左,唯獨(dú)在AI將損害選舉和個(gè)人關(guān)系這一點(diǎn)上達(dá)成一致。"
64%的美國公眾預(yù)計(jì),AI將在未來二十年內(nèi)減少人類的就業(yè)機(jī)會(huì),而只有5%的人認(rèn)為AI會(huì)創(chuàng)造更多崗位。專家群體中,只有39%預(yù)計(jì)就業(yè)崗位會(huì)減少,19%預(yù)計(jì)就業(yè)機(jī)會(huì)增加。然而,專家們同時(shí)認(rèn)為,到2030年,生成式AI將參與美國80%的工作時(shí)長,而公眾對這一比例的估計(jì)僅為10%。
僅有31%的美國受訪者表示信任政府能夠負(fù)責(zé)任地監(jiān)管AI,在所有參與調(diào)查的國家中比例最低。鑒于OpenAI正在支持伊利諾伊州一項(xiàng)旨在限制AI公司在模型造成災(zāi)難性危害時(shí)所負(fù)責(zé)任的法案,加之白宮推行"對行業(yè)友好的AI政策",美國公眾對政府是否真正致力于保護(hù)自身權(quán)益產(chǎn)生質(zhì)疑,也就不難理解了。
HAI報(bào)告指出,中國AI模型與美國AI模型之間的性能差距已大幅收窄。截至2026年3月,美國頂尖模型Claude Opus 4.6在Arena基準(zhǔn)測試中得分1,503,僅比字節(jié)跳動(dòng)的Dola-Seed Preview(1,464分)高出2.7個(gè)百分點(diǎn)。而截至2026年4月9日,差距進(jìn)一步縮小——Claude Opus 4.6 Thinking得分1,548,智譜AI的GLM-5.1以1,530分緊隨其后。
美國在AI投資方面仍保持領(lǐng)先地位,2025年投資額據(jù)稱已達(dá)2,859億美元,是中國124億美元的23倍。不過報(bào)告也指出,中國的政府資金投入或許存在統(tǒng)計(jì)遺漏。即便如此,美國正面臨技術(shù)人才的持續(xù)流失。報(bào)告顯示:"自2017年以來,赴美AI研究人員和開發(fā)者數(shù)量下降了89%,僅過去一年就減少了80%。"
Q&A
Q1:《2026年AI指數(shù)報(bào)告》中AI事故數(shù)量增加的主要原因是什么?
A:報(bào)告指出,隨著AI的快速普及,AI事故數(shù)量也同步上升。2025年,有據(jù)可查的AI事故達(dá)到362起,相比2024年的233起明顯增加。主要原因在于AI能力快速提升,但"負(fù)責(zé)任的AI"發(fā)展滯后,安全基準(zhǔn)跟不上實(shí)際部署速度,導(dǎo)致現(xiàn)實(shí)世界中的傷害或潛在傷害事件頻發(fā),律師使用AI偽造引用被法院點(diǎn)名批評(píng)便是典型案例。
Q2:AI模型目前在哪些方面仍存在明顯短板?
A:盡管AI在編程任務(wù)上表現(xiàn)出色,但在其他領(lǐng)域仍有明顯不足。例如,在識(shí)別指針式時(shí)鐘方面,OpenAI的GPT-5.4 High正確率僅有50.6%,遠(yuǎn)低于普通人類約90%的水平。此外,在26個(gè)模型的幻覺率測試中,部分模型的幻覺率高達(dá)94%,說明AI在面對不確定信息時(shí)仍可能隨意"編造"答案。機(jī)器人在家庭任務(wù)中的完成率也僅有12%。
Q3:美國在全球AI發(fā)展中的領(lǐng)先地位是否正在受到挑戰(zhàn)?
A:是的,領(lǐng)先優(yōu)勢正在收窄。中國AI模型與美國頂尖模型的性能差距已大幅縮小,字節(jié)跳動(dòng)和智譜AI的模型在國際基準(zhǔn)測試中緊追美國頭部產(chǎn)品。與此同時(shí),美國AI技術(shù)人才流入量自2017年以來下降了89%,僅過去一年就減少了80%,這對美國維持AI領(lǐng)域的長期競爭優(yōu)勢構(gòu)成挑戰(zhàn)。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.