![]()
把研發、技術、治理、經濟、科學、醫學等放在一起看,2025年的AI產業已經很難用“模型進步”四個字概括。
上半場比的是誰能訓練出更強模型,下半場比的是誰能把模型變成穩定、可靠、可監管、可商業化、可持續的生產力。
轉譯|斗斗
出品|產業家
過去一年,AI行業最顯著的變化,是判斷AI進展的方式變了。過去一年,AI行業最顯著的變化,是判斷AI進展的方式變了。
在更長一段時間里,外界習慣用參數規模、榜單排名、融資金額和產品發布節奏來理解AI。但進入2025年后,這套敘事開始顯得不夠用了。模型還在變強,算力還在擴張,資本還在涌入,AI也正在進入科學、醫療、教育、企業服務和自動駕駛等更深的產業場景。可與此同時,頂級模型之間的性能差距正在縮小,前沿系統的透明度正在下降,算力和芯片供應鏈越來越集中,治理、能源、就業和公平問題也開始從幕后走到臺前。
這意味著,AI競爭正在從單點技術競賽,變成一場更復雜的系統競爭。真正值得追問的,已經不只是“誰的模型更強”,而是“誰能把AI變成穩定、可信、可規模化的生產力”。
也正是在這個節點,斯坦福大學以人為本人工智能研究院旗下AI Index項目發布了《2026 AI Index Report》。作為一份長期被全球政策界、學術界、產業界和媒體引用的年度報告,它并不只是一份技術榜單,而是試圖用跨越研發、技術性能、負責任AI、經濟、科學、醫學和教育等多個維度的數據,重新描繪AI產業的真實坐標。
這份報告釋放出的信號很清晰:AI的上半場,比的是模型能力和技術突破;AI的下半場,比的將是基礎設施、真實場景、商業效率和社會信任。換句話說,AI已經不再只是技術公司的故事,而是正在成為一套重新分配產業資源、人才結構和全球競爭優勢的新基礎設施。
圍繞這份報告,我們試圖從七個維度梳理2025年以來AI產業正在發生的關鍵變化。一個越來越明確的判斷是:當模型能力逐漸逼近,真正決定下一輪產業格局的,將是把技術落到產業深處的能力。
以下為報告轉譯后歸納總結:
要點概述:
1、AI 遠未見頂,反而在加速狂飆,正以史無前例的廣度野蠻滲透大眾
2、中美 AI 模型的性能鴻溝,如今已被生生抹平
3、 既能斬獲奧數金牌,又會在數秒報時上淪為白癡, AI 陷入極度失衡的“參差前沿”
4、盡管機器人在受控環境中表現出色,但在大多數家務任務上仍束手無策
5、負責任的人工智能發展速度跟不上人工智能能力的提升,安全基準滯后,相關事件數量大幅上升
6、人工智能的普及速度正創下歷史紀錄,消費者正從這些通常免費使用的工具中獲得可觀價值
7、人工智能正在改變臨床醫療,但相關嚴謹的證據依然有限
一、研發進入巨頭時代:AI越來越強,也越來越不透明
2025年的AI研發呈現出一種鮮明的矛盾:一方面,支撐AI發展的資源還在增長,算力、開源項目、論文和專利都在繼續擴張;另一方面,真正處在前沿位置的模型系統卻越來越集中,透明度也在下降。
最直接的變化是,行業已經成為AI模型開發的絕對主角。2025年,行業產出了超過90%的知名AI模型,學術機構在前沿模型中的角色被進一步擠壓。原因并不復雜,訓練一個頂級模型所需要的算力、數據、工程團隊和資金投入,已經不是一般高校或研究機構能夠獨立承擔的。AI研發正在從過去相對開放的科研競爭,變成少數巨頭之間的基礎設施競賽。
![]()
但問題也隨之出現。越是性能最強的模型,往往越不透明。包括OpenAI、Anthropic、Google在內的多個資源消耗極高的系統,已經不再完整披露訓練代碼、參數數量、數據集規模和訓練時長。這讓外界很難判斷模型能力到底來自算法突破、數據質量、后訓練優化,還是單純的算力堆疊。AI越重要,社會越需要理解它;但AI越前沿,外部越難看清它。
![]()
與此同時,全球AI研發版圖也在發生變化。中國在論文發表數量、引用量和專利授權方面位居首位,在被引次數最高的100篇AI論文中所占比例也持續上升。美國則在知名模型開發方面保持領先,2025年研發出59個知名模型,中國為35個。換句話說,中國在研究產出和知識積累上更具規模優勢,美國仍掌握更多前沿模型和高影響力專利。
算力是這場競爭最硬的底座。自2022年以來,全球AI計算能力每年約增長3.3倍,到2025年已達到1710萬顆H100等效芯片的規模。英偉達占據總計算量的60%以上,谷歌和亞馬遜供應了剩余的大部分份額,華為雖然占比仍小,但份額正在增長。算力擴張背后,是超大規模數據中心建設和前沿模型訓練、推理需求的持續上升。
但越往底層看,風險越集中。美國擁有全球最多的數據中心,數量是其他任何國家的十倍以上;而臺積電幾乎制造了所有主流AI芯片,使全球AI硬件供應鏈高度依賴臺灣的一家代工廠。AI看似是云端軟件革命,底層卻是高度集中的半導體制造、能源供應和數據中心部署能力。
這種擴張還帶來了環境代價。2025年,Grok 4的訓練排放量預估達到72816噸二氧化碳當量;AI數據中心電力容量升至29.6吉瓦,接近紐約州峰值用電量;僅GPT-4o的年度推理用水量,就可能超過120萬人的飲用水需求。
AI越強,越不只是技術問題,而是能源、供應鏈和公共資源問題。
二、模型能力追平之后,競爭從“跑分”轉向“有用”
AI技術性能仍在快速提升,但2025年最重要的信號不是“模型又變強了”,而是“強模型之間越來越難拉開差距”。
在語言、推理、編碼、數學等基準測試上,前沿模型的分數持續上升,甚至開始超過部分人類水平。前沿模型在“人類終極考試”這一高難度基準上一年內提升了30個百分點,許多原本被認為可以持續多年檢驗模型能力的測試,只用了幾個月就被攻克。這說明AI進步速度已經超過評估體系的更新速度,舊的尺子正在變短。
![]()
當基準被快速刷穿,模型排名的意義就開始變化。到2026年3月,Anthropic、xAI、Google、OpenAI、阿里巴巴和深度求索均位于Arena Elo評分第一梯隊,其中多家公司的模型分差控制在很小范圍內。中美頂級模型之間的性能差距也基本彌合。2025年初以來,中美模型多次在性能排行榜首位置互換,DeepSeek-R1曾短暫與美國頂級模型持平,截至2026年3月,美國頂級模型僅以2.7%的優勢領先。
![]()
這背后的產業含義很清楚:當“能力領先”不再足以形成壓倒性差異,競爭壓力就會轉向成本、可靠性、領域性能和真實世界可用性。一個模型能不能便宜地調用,能不能穩定地完成任務,能不能在稅務、法律、財務、客服、代碼、醫療等專業場景中交付結果,將比單純跑分更重要。
開源與閉源的格局也出現反復。2024年,開源模型一度大幅縮小與閉源模型的差距,但到2025年,這一差距又重新擴大。截至2026年3月,頭部閉源模型領先頭部開源模型3.3%,Arena排行榜前十中有六個為閉源模型。這說明開源仍然是生態擴散和產業創新的重要力量,但在最前沿能力上,閉源巨頭仍借助算力、數據和工程優勢保持領先。
與此同時,AI能力呈現出一種“鋸齒狀智能”。它可以在國際數學奧林匹克競賽中拿到金牌,卻仍無法可靠識別模擬時鐘。Gemini Deep Think在2025年IMO中獲得35分金牌成績,但頂級模型在ClockBench上的模擬時鐘識別正確率只有50.6%,而人類為90.1%。這提醒我們,AI不是線性變聰明,而是在某些任務上突飛猛進,在另一些常識性任務上仍然脆弱。
更值得關注的是,AI正在從數字任務走向物理世界。視頻生成模型開始捕捉物體運動規律,不再只是生成逼真畫面。谷歌DeepMind的Veo 3在超過1.8萬個生成視頻測試中,展現出模擬浮力、解決迷宮等能力,且無需專門訓練。智能體也從回答問題進階到完成任務,OSWorld測試中的準確率從約12%提升至66.3%,與人類差距縮小到6個百分點以內。
![]()
但進入物理世界并不容易。機器人在模擬環境中的操作成功率可達89.4%,但在現實家庭任務中的成功率只有12%。
相比之下,自動駕駛成為少數已經實現大規模部署的例外。Waymo在美國五個城市每周行程約45萬次,百度Apollo Go完成了1100萬次全程無人駕駛行程。
AI正在靠近物理世界,但離真正穩定地理解和改造物理世界,還有很長一段路。
三、負責任AI開始補課:治理追不上部署,風險已經進入現實
隨著AI能力擴張,治理問題也被推到臺前。2025年的一個核心矛盾是,負責任AI的基礎設施正在建設,但速度遠遠趕不上AI部署。
安全基準在增加,更多組織開始制定負責任AI政策,政府支持的AI安全機構也擴展到更多國家。但這些動作更多像是在補課,而不是主動引領。幾乎所有領先模型開發者都會公布MMLU、SWE-bench等能力基準結果,但針對負責任AI基準測試的報告仍然很少。換句話說,企業很愿意展示模型有多強,卻不太愿意完整披露模型有多安全、多公平、多透明。
風險已經在現實中累積。人工智能事件數據庫顯示,2025年記錄到362起AI事件,高于2024年的233起。模型幻覺仍是突出問題。
![]()
在一項準確率基準測試中,26款主流模型的幻覺率在22%至94%之間。更微妙的是,模型難以區分“知識”和“信念”。當虛假陳述被表述為他人觀點時,模型還能較好處理;但當同一虛假陳述被表述為用戶觀點時,模型表現會大幅下降。這意味著模型不只是會編造信息,還可能受到提問方式和用戶立場的影響。
企業層面的治理意識確實在提升。2025年,AI專屬治理崗位增長17%,尚未制定負責任AI政策的企業占比從24%降至11%。
但落地仍然受制于現實條件,主要障礙包括知識缺口、預算限制和監管不確定性。很多企業不是不想治理,而是不知道怎么治理、沒有足夠資源治理,也不確定未來監管會如何變化。
監管框架也在轉向AI專屬體系。GDPR仍是被提及最多的監管影響因素,但影響力占比有所下降。與此同時,ISO/IEC 42001人工智能管理體系標準、NIST人工智能風險管理框架等更具體的AI治理工具開始進入企業視野。監管正在從隱私和數據合規,進一步走向模型開發、部署、監控和風險管理。
但更深層的挑戰是,AI治理并不是單一指標最優化。安全、公平、隱私、可解釋性之間可能存在沖突。近期研究發現,提升某一個負責任AI維度的訓練技術,可能持續損害其他維度。例如,隱私增強可能削弱公平性,安全優化可能降低準確率。今天行業還缺少成熟框架來處理這些權衡。
透明度下降則讓治理更難。基礎模型透明度指數在2023年至2024年從37分升至58分,但2025年又降至40分。訓練數據、計算資源和部署后影響的披露仍存在重大空白。
![]()
模型越被用于真實產業,外界越需要知道它的邊界;但前沿企業越是競爭激烈,越傾向于隱藏關鍵細節。這種張力,將成為AI下一階段最大的制度性難題之一。
四、錢還在涌入AI,但紅利分配并不均勻
技術競爭之外,AI經濟正在以前所未有的速度擴張。2025年,全球企業AI投資增長了一倍多,私人投資增長最快,增速達到127.5%,并占總投資的60%。生成式AI是這輪增長的核心,投資增速超過200%,幾乎占據私人人工智能融資總額的一半。新獲得融資的AI公司數量增長71%,十億美元級融資交易數量幾乎翻番。
![]()
但資金并沒有均勻流向全球。美國在AI私人投資領域繼續保持領先,投入資金是中國的23倍。在生成式AI領域,美國投資規模大幅超過中國和歐洲總和。這種差距顯示,美國仍掌握全球AI資本市場的主導權。不過,私人投資數據可能低估中國AI支出,因為中國政府引導基金在過去二十多年中已向AI企業投入大量資金。美國更強在市場資本和云基礎設施,中國則更多體現為產業政策、制造能力和應用場景的組合投入。
AI公司的收入增長速度也創下歷史紀錄。頭部企業在短時間內實現了可觀營收,但算力成本和基礎設施支出同樣飆升。云服務商加快資本開支,谷歌披露2025年年度資本支出超過1500億美元。這說明AI商業化并不是輕資產神話,而是一場重資產競賽。模型收入增長越快,背后的芯片、服務器、能源和數據中心投入也越大。
消費端已經證明AI具備真實價值。到2026年初,美國消費者從生成式AI中獲得的年度消費者剩余估計達到1720億美元,較一年前的1120億美元明顯增長,每位用戶的中位數價值翻了三倍。更關鍵的是,這些工具大多仍免費或接近免費。AI正在像搜索引擎和社交網絡一樣,先通過低成本、高頻使用形成普及,再逐步重構商業模式。
企業采用率也在提升。2025年,受訪企業中AI采用率達到88%,70%的企業至少在一項業務職能中應用生成式AI。中國和歐洲同比增幅位居前列。但智能體應用仍處于早期,在幾乎所有業務職能中的部署數量仍為個位數。企業已經接受AI工具,但還沒有大規模把AI交給自動化流程和關鍵業務閉環。
![]()
生產力提升也并非無處不在。AI在結構化、可量化、產出易監控的工作中效果最明顯,例如客戶支持效率提升14%至15%,軟件開發效率提升26%,營銷成果提升50%。但在需要深度推理、復雜判斷和長期經驗積累的任務中,提升幅度較小。AI正在創造價值,但它首先改變的是流程清晰、數據可得、反饋明確的工作,而不是所有工作。
五、醫療AI走過炫技階段,進入臨床證據之戰
醫療是AI最受期待、也最需要謹慎的領域。2025年,醫療AI在分子生物學、臨床推理、臨床記錄、診斷輔助和健康搜索等方向都有明顯進展,但一個核心問題越來越突出:模型的高分表現,并不等于真實臨床效果。
在分子生物學領域,小模型的表現開始挑戰“大模型崇拜”。MSAPairformer只有1.11億參數,卻在ProteinGym基準測試中超過以往領先方法;GPN-Star作為2億參數的基因組學模型,性能超過一個400億參數模型。這說明醫療和生命科學領域并不總是需要更大的通用模型,更小、更專業、更貼近領域數據的模型,可能反而更有效。
![]()
虛擬細胞模型成為新的前沿。Arc研究所的Evo 2、STATE以及DeepMind的AlphaGenome都指向同一個目標:在不進行濕實驗室實驗的情況下,預測細胞對藥物和基因擾動的反應。如果這一路徑成熟,藥物發現和生物實驗的成本結構將被重寫。但現階段,這些系統仍然需要實驗驗證,AI還不能替代真實生物學證據。
臨床應用中,最先跑出來的不是最炫的診斷模型,而是能嵌入醫生工作流的工具。2025年,能夠根據患者就診自動生成臨床筆記的AI工具得到廣泛應用。在多家醫療機構中,醫生表示寫病歷時間減少最高達83%,職業倦怠感也顯著下降,部分機構還實現了112%的投資回報率。
監管層面,AI醫療設備數量快速增加。2025年,美國FDA批準了258款AI醫療設備,但大多數通過無需開展新臨床試驗的渠道獲批。絕大多數設備是通過設備改造途徑進入市場,依賴現有安全性和有效性證據,而非新的隨機試驗。僅有2.4%的臨床研究設備得到隨機試驗數據支持。這意味著醫療AI的商業化速度,已經明顯快于臨床證據積累速度。
診斷能力也在提升。微軟AI診斷協調器搭配OpenAI o3模型,在復雜醫學案例研究中獲得85.5%的得分,而未借助輔助工具的醫生僅為20%。多智能體框架相比單智能體基準模型,診斷準確率提升7%至60%以上。但這類結果仍需要謹慎解讀,因為測試往往基于醫學文獻中的疑難病例,并不完全等同于真實醫院環境中的診療流程。
與此同時,患者正在更早接觸AI健康信息。如今,84%至92%的健康相關谷歌搜索結果頂部都會顯示AI生成摘要。癥狀和常見健康問題最容易觸發AI概述。這意味著很多患者在見醫生之前,已經通過AI形成對疾病、治療和風險的初步理解。問題在于,這些信息往往不經過正式醫療器械監管,卻可能影響患者決策。
因此,醫療AI下一階段的關鍵詞不是“模型多強”,而是證據、治理和倫理。它需要隨機試驗、真實世界數據、臨床責任邊界和更充分的倫理討論。AI對醫療的影響已經出現,但要真正規模化進入臨床,不能只靠演示和榜單,必須經得起醫學證據體系的檢驗。
把研發、技術、治理、經濟、科學、醫學和教育放在一起看,2025年的AI產業已經很難用“模型進步”四個字概括。
它當然還在變強。模型能力快速提升,中美差距縮小,視頻模型開始理解物理規律,智能體開始完成復雜任務,AI也正在進入科學、醫療和教育等高價值場景。但與此同時,AI也變得更昂貴、更集中、更不透明、更依賴基礎設施,并帶來更多治理、能源、就業和公平問題。
這正是AI進入下半場的標志。上半場比的是誰能訓練出更強模型,下半場比的是誰能把模型變成穩定、可靠、可監管、可商業化、可持續的生產力。
真正的產業價值,不會只屬于參數最多、榜單最高的模型,而會屬于那些能在真實場景中完成閉環的系統。它要接得住企業流程,扛得住醫療證據,經得起安全審查,解釋得清成本收益,也能在教育和勞動力市場中創造新的能力,而不是簡單替代舊崗位。
AI的故事還在加速,但它已經不再只是技術公司的故事。它是算力供應鏈的故事,是全球資本流動的故事,是科研范式變化的故事,是醫生、教師、學生、工程師和普通用戶共同參與的故事。
下一階段,AI最大的懸念不是它能不能繼續變強,而是它能不能被社會真正吸收,成為一種可信、可控、可分配的生產力。誰能回答這個問題,誰才真正站在AI產業的下一輪中心。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.