![]()
斯坦福最新AI指數報告釋放重磅信號:中美AI模型性能差距已被幾乎抹平,高達88%的企業已悄然“搶跑”。但這只是冰山一角,翻開這份報告,一幅關于未來的真實圖景正在浮現:過去一年,AI究竟把我們推向了怎樣的世界?
當地時間4月13日,由斯坦福大學以人為本AI研究所發布了AI年度報告——《2026年AI指數報告》,今年已是第九屆。今年的報告篇幅超過400頁,追蹤了AI在技術能力、研究成果、投資、人才隊伍、政策及公眾認知等領域的進展。該報告被視為全球AI發展最全面的獨立年度評估報告。
2025年,支撐AI發展的資源持續增長,但發布的知名模型數量較前一年有所減少,前沿領域的技術系統也愈發集中在少數機構手中。如今行業占比超過90%的知名AI模型,而性能最強的系統同時也是透明度最低的,其訓練代碼、數據集規模和參數數量的公開程度愈發降低。自2022年以來,這些模型背后的算力每年約增長3.3倍,但幾乎所有算力都依賴中國臺灣的一家芯片代工廠,這使得全球硬件供應鏈十分脆弱。美國在頂尖模型方面領先,中美模型性能差距在顯著縮小,基本“抹平”。中國目前在發表論文數量、引文占比和專利授權量方面位居前列,而瑞士、新加坡等小國則在人均AI研究人員數量上領先。
以下是核心要點:
1. AI能力正在加速發展,并惠及比以往更多的人群
![]()
2025年,超過90%的知名前沿模型由行業開發,其中部分模型在博士級科學問題、多模態推理及競賽數學領域已達到或超越人類基準水平。在關鍵編程基準測試——SWE-bench Verified中,性能在短短一年內從60%躍升至接近100%。企業采用率達到88%,五分之四的大學生現在使用生成式AI。
2. 中美兩國AI模型性能差距已基本“抹平”
自2025年初以來,中美兩國的AI模型多次交替領先。2025年2月,DeepSeek-R1曾短暫追平美國頂尖模型,截至2026年3月。在斯坦福大學追蹤的基準測試中,Anthropic的頂尖模型比表現最佳的中國模型領先2.7%。
美國仍產出更多頂尖AI模型和影響更大的專利,而中國在論文發表量、被引用次數、專利產出及工業機器人安裝量方面處于領先地位。韓國在創新密度方面表現突出,人均AI專利數量位居世界第一。
![]()
3. 前沿AI模型性能趨于收斂
過去一年,前沿模型的差距進一步縮小,頂級模型的表現正趨于一致,在競技場排行榜和基準測試中,經人類投票相互評分時,目前有4家公司的Elo評分(借鑒國際象棋評分體系)差距控制在25分以內。截至2026年3月,Anthropic(1503分)、xAI(1495分)、谷歌(1494分)、OpenAI(1481分)、阿里巴巴(1449分)和深度求索(1424分)均位居競技場Elo評分的第一梯隊,競爭壓力也隨之轉向成本、可靠性和領域特定性能方面。
![]()
2023年初,OpenAI憑借其頂級模型1322分的成績占據明顯領先優勢,而谷歌當時僅為1117分。2024年全年,這一差距持續收窄,谷歌、Anthropic等公司相繼推出性能更強的模型。截至2025年2月,深度求索(DeepSeek)曾短暫追平并超越了美國競技場排名前列的模型。去年的報告中,排名前四的模型分差約為97分,而到2026年3月,前四名模型的分差已不足25分。
4. AI模型能在國際奧數競賽中摘得金牌卻無法準確報時
Gemini Deep Think在國際數學奧林匹克競賽中斬獲金牌,但該頂尖模型正確讀取指針式時鐘的準確率僅為50.1%。在測試跨操作系統真實計算機任務的OSWorld平臺上,AI代理的任務成功率從12%躍升至約66%,但在結構化基準測試中,其失敗率仍高達三分之一。
![]()
尤其在機器人領域,盡管機器人在受控環境中表現出色,但在大多數家務任務上仍表現不佳。機器人僅能完成12%的家務任務,這凸顯了AI距離掌握物理世界還有很大差距。在RLBench平臺上,基于軟件模擬的機器人操作成功率已達到89.4%,但可預測的實驗室環境與不可預測的家庭環境之間存在巨大差距。
5. 負責任的AI未能跟上AI能力發展的步伐,安全基準測試滯后
幾乎所有領先的前沿AI模型開發者都會報告能力基準測試的結果,但關于負責任AI基準測試的報告仍不完整。已記錄的AI事件從2024年的233起上升至362起。更具挑戰性的是,最新研究發現,改善一個負責任AI維度(如安全性)可能會導致另一個維度(如準確性)的下降。
![]()
6. 美國在AI投資方面處于領先地位,但其吸引全球人才的能力正在下降
2025年,美國私營AI投資達到2859億美元,是中國的124億美元投資額的23倍以上——僅看私營投資數據可能會低估中國的總AI支出,因為中國還有政府指導基金。在創業活動方面,美國同樣處于領先地位,2025年獲得新融資的AI公司達1,953家,是排名第二國家的10倍以上。然而,自2017年以來,移居美國的AI研究人員和開發人員數量下降了89%,僅去年一年就減少了80%。
![]()
7. AI加速普及,普及速度超過互聯網
生成式AI在三年內的普及率達到了53%,這一速度超過了個人電腦和互聯網。各國的普及率差異巨大,且與GDP高度相關,不過有一些國家的普及率超出了其收入水平所對應的預期,其中新加坡達61%,阿聯酋達54%。盡管美國在AI投資和模型開發方面處于領先地位,但其普及率僅為28.3%,位列第24位。
![]()
8. 企業AI采用率達88%,AI加劇就業影響
2025年,企業對AI的采用在使用場景和功能上均持續拓展。絕大多數受訪者表示其所在企業至少在一項業務職能中應用了AI,這一比例從2024年的78%升至2025年的88%。超過一半的受訪者表示至少有三項業務職能在利用AI。生成式AI的應用也呈現出同樣的增長態勢,79%的受訪者稱其所在企業至少在一項業務職能中常規使用生成式AI,2024年這一比例為71%。各地區均出現了AI應用范圍擴大的情況,不過增長速度有所不同。中國和歐洲的AI企業應用率同比增幅更高,分別提升了13%和11%。
![]()
AI對勞動力市場的影響正不均衡地顯現,集中體現在招聘流程以及年輕勞動者身上。2024年以來,22至25歲軟件開發人員的就業率下降了近20%。雇主調查顯示未來還將有進一步變化,三分之一的受訪者預計未來一年將進行裁員。
三分之一的企業預計未來一年AI將縮減其員工規模,盡管整體就業數據中尚未出現大規模裁員現象。近一半的受訪企業預期員工數量幾乎沒有變化。預計裁員比例最高的領域是服務運營、供應鏈和軟件工程。在幾乎所有職能部門中,預期的裁員人數都超過了實際裁員人數。
9. AI專家與公眾對該技術未來的看法存在顯著差異
在AI對工作方式的影響方面,73%的專家預期其將產生積極影響,而公眾中持此觀點的僅占23%,兩者存在50%的差距。在AI對經濟和醫療保健的影響方面,也出現了類似的分歧。在全球范圍內,對政府監管AI能力的信任度各不相同。在受訪國家中,美國民眾對其政府監管AI能力的信任度最低,僅為31%。在全球范圍內,相比美國或中國,歐盟在有效監管AI方面更受信任。
![]()
10. AI對環境的影響在不斷擴大
AI的環境足跡正隨著其能力的提升而不斷擴大。該報告估計,訓練最新一代的大型語言模型(如xAI的Grok 4)可產生超過72,000噸的碳排放,這一數字較往年估算值大幅攀升。AI推理產生的排放量也在持續增加,盡管不同模型的結果存在差異。報告估計,推理效率最低的模型產生的碳排放量是效率最高模型的10倍以上。AI數據中心的電力容量已升至29.6吉瓦,與紐約州的峰值用電需求相當,而僅GPT-4o每年的推理用水量就可能超過1200萬人的飲用水需求。
11. 模型透明度正在下降
報告指出AI模型透明度正呈現令人擔憂的下降趨勢。OpenAI、Anthropic和谷歌已停止披露其最先進模型的訓練數據集規模、參數數量及訓練時長。在2025年發布的95個最具影響力的AI模型中,有80個未公開訓練代碼。如今,性能最強的模型反而成為該領域透明度最低的系統。
報告鏈接:https://hai.stanford.edu/assets/files/ai_index_report_2026.pdf
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.