網易首頁 > 網易號 > 正文申請入駐

斯坦福AI指數報告：88%企業已“上車”，中美AI差距抹平

2026-04-16 17:36:24　來源: ITPUB學院

北京舉報

分享至

斯坦福最新AI指數報告釋放重磅信號：中美AI模型性能差距已被幾乎抹平，高達88%的企業已悄然“搶跑”。但這只是冰山一角，翻開這份報告，一幅關于未來的真實圖景正在浮現：過去一年，AI究竟把我們推向了怎樣的世界？

當地時間4月13日，由斯坦福大學以人為本AI研究所發布了AI年度報告——《2026年AI指數報告》，今年已是第九屆。今年的報告篇幅超過400頁，追蹤了AI在技術能力、研究成果、投資、人才隊伍、政策及公眾認知等領域的進展。該報告被視為全球AI發展最全面的獨立年度評估報告。

2025年，支撐AI發展的資源持續增長，但發布的知名模型數量較前一年有所減少，前沿領域的技術系統也愈發集中在少數機構手中。如今行業占比超過90%的知名AI模型，而性能最強的系統同時也是透明度最低的，其訓練代碼、數據集規模和參數數量的公開程度愈發降低。自2022年以來，這些模型背后的算力每年約增長3.3倍，但幾乎所有算力都依賴中國臺灣的一家芯片代工廠，這使得全球硬件供應鏈十分脆弱。美國在頂尖模型方面領先，中美模型性能差距在顯著縮小，基本“抹平”。中國目前在發表論文數量、引文占比和專利授權量方面位居前列，而瑞士、新加坡等小國則在人均AI研究人員數量上領先。

以下是核心要點：

1. AI能力正在加速發展，并惠及比以往更多的人群

2025年，超過90%的知名前沿模型由行業開發，其中部分模型在博士級科學問題、多模態推理及競賽數學領域已達到或超越人類基準水平。在關鍵編程基準測試——SWE-bench Verified中，性能在短短一年內從60%躍升至接近100%。企業采用率達到88%，五分之四的大學生現在使用生成式AI。

2. 中美兩國AI模型性能差距已基本“抹平”

自2025年初以來，中美兩國的AI模型多次交替領先。2025年2月，DeepSeek-R1曾短暫追平美國頂尖模型，截至2026年3月。在斯坦福大學追蹤的基準測試中，Anthropic的頂尖模型比表現最佳的中國模型領先2.7%。

美國仍產出更多頂尖AI模型和影響更大的專利，而中國在論文發表量、被引用次數、專利產出及工業機器人安裝量方面處于領先地位。韓國在創新密度方面表現突出，人均AI專利數量位居世界第一。

3. 前沿AI模型性能趨于收斂

過去一年，前沿模型的差距進一步縮小，頂級模型的表現正趨于一致，在競技場排行榜和基準測試中，經人類投票相互評分時，目前有4家公司的Elo評分（借鑒國際象棋評分體系）差距控制在25分以內。截至2026年3月，Anthropic（1503分）、xAI（1495分）、谷歌（1494分）、OpenAI（1481分）、阿里巴巴（1449分）和深度求索（1424分）均位居競技場Elo評分的第一梯隊，競爭壓力也隨之轉向成本、可靠性和領域特定性能方面。

2023年初，OpenAI憑借其頂級模型1322分的成績占據明顯領先優勢，而谷歌當時僅為1117分。2024年全年，這一差距持續收窄，谷歌、Anthropic等公司相繼推出性能更強的模型。截至2025年2月，深度求索（DeepSeek）曾短暫追平并超越了美國競技場排名前列的模型。去年的報告中，排名前四的模型分差約為97分，而到2026年3月，前四名模型的分差已不足25分。

4. AI模型能在國際奧數競賽中摘得金牌卻無法準確報時

Gemini Deep Think在國際數學奧林匹克競賽中斬獲金牌，但該頂尖模型正確讀取指針式時鐘的準確率僅為50.1%。在測試跨操作系統真實計算機任務的OSWorld平臺上，AI代理的任務成功率從12%躍升至約66%，但在結構化基準測試中，其失敗率仍高達三分之一。

尤其在機器人領域，盡管機器人在受控環境中表現出色，但在大多數家務任務上仍表現不佳。機器人僅能完成12%的家務任務，這凸顯了AI距離掌握物理世界還有很大差距。在RLBench平臺上，基于軟件模擬的機器人操作成功率已達到89.4%，但可預測的實驗室環境與不可預測的家庭環境之間存在巨大差距。

5. 負責任的AI未能跟上AI能力發展的步伐，安全基準測試滯后

幾乎所有領先的前沿AI模型開發者都會報告能力基準測試的結果，但關于負責任AI基準測試的報告仍不完整。已記錄的AI事件從2024年的233起上升至362起。更具挑戰性的是，最新研究發現，改善一個負責任AI維度（如安全性）可能會導致另一個維度（如準確性）的下降。

6. 美國在AI投資方面處于領先地位，但其吸引全球人才的能力正在下降

2025年，美國私營AI投資達到2859億美元，是中國的124億美元投資額的23倍以上——僅看私營投資數據可能會低估中國的總AI支出，因為中國還有政府指導基金。在創業活動方面，美國同樣處于領先地位，2025年獲得新融資的AI公司達1,953家，是排名第二國家的10倍以上。然而，自2017年以來，移居美國的AI研究人員和開發人員數量下降了89%，僅去年一年就減少了80%。

7. AI加速普及，普及速度超過互聯網

生成式AI在三年內的普及率達到了53%，這一速度超過了個人電腦和互聯網。各國的普及率差異巨大，且與GDP高度相關，不過有一些國家的普及率超出了其收入水平所對應的預期，其中新加坡達61%，阿聯酋達54%。盡管美國在AI投資和模型開發方面處于領先地位，但其普及率僅為28.3%，位列第24位。

8. 企業AI采用率達88%，AI加劇就業影響

2025年，企業對AI的采用在使用場景和功能上均持續拓展。絕大多數受訪者表示其所在企業至少在一項業務職能中應用了AI，這一比例從2024年的78%升至2025年的88%。超過一半的受訪者表示至少有三項業務職能在利用AI。生成式AI的應用也呈現出同樣的增長態勢，79%的受訪者稱其所在企業至少在一項業務職能中常規使用生成式AI，2024年這一比例為71%。各地區均出現了AI應用范圍擴大的情況，不過增長速度有所不同。中國和歐洲的AI企業應用率同比增幅更高，分別提升了13%和11%。

AI對勞動力市場的影響正不均衡地顯現，集中體現在招聘流程以及年輕勞動者身上。2024年以來，22至25歲軟件開發人員的就業率下降了近20%。雇主調查顯示未來還將有進一步變化，三分之一的受訪者預計未來一年將進行裁員。

三分之一的企業預計未來一年AI將縮減其員工規模，盡管整體就業數據中尚未出現大規模裁員現象。近一半的受訪企業預期員工數量幾乎沒有變化。預計裁員比例最高的領域是服務運營、供應鏈和軟件工程。在幾乎所有職能部門中，預期的裁員人數都超過了實際裁員人數。

9. AI專家與公眾對該技術未來的看法存在顯著差異

在AI對工作方式的影響方面，73%的專家預期其將產生積極影響，而公眾中持此觀點的僅占23%，兩者存在50%的差距。在AI對經濟和醫療保健的影響方面，也出現了類似的分歧。在全球范圍內，對政府監管AI能力的信任度各不相同。在受訪國家中，美國民眾對其政府監管AI能力的信任度最低，僅為31%。在全球范圍內，相比美國或中國，歐盟在有效監管AI方面更受信任。

10. AI對環境的影響在不斷擴大

AI的環境足跡正隨著其能力的提升而不斷擴大。該報告估計，訓練最新一代的大型語言模型（如xAI的Grok 4）可產生超過72,000噸的碳排放，這一數字較往年估算值大幅攀升。AI推理產生的排放量也在持續增加，盡管不同模型的結果存在差異。報告估計，推理效率最低的模型產生的碳排放量是效率最高模型的10倍以上。AI數據中心的電力容量已升至29.6吉瓦，與紐約州的峰值用電需求相當，而僅GPT-4o每年的推理用水量就可能超過1200萬人的飲用水需求。

11. 模型透明度正在下降

報告指出AI模型透明度正呈現令人擔憂的下降趨勢。OpenAI、Anthropic和谷歌已停止披露其最先進模型的訓練數據集規模、參數數量及訓練時長。在2025年發布的95個最具影響力的AI模型中，有80個未公開訓練代碼。如今，性能最強的模型反而成為該領域透明度最低的系統。

報告鏈接：https://hai.stanford.edu/assets/files/ai_index_report_2026.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.