網易首頁 > 網易號 > 正文申請入駐

AI進入下半場：模型不再稀缺，真正稀缺的是算力、場景和信任

AI進入下半場：模型不再稀缺

2026-07-01 16:15:22　來源: 產業家

北京舉報

分享至

把研發、技術、治理、經濟、科學、醫學等放在一起看，2025年的AI產業已經很難用“模型進步”四個字概括。

上半場比的是誰能訓練出更強模型，下半場比的是誰能把模型變成穩定、可靠、可監管、可商業化、可持續的生產力。

轉譯|斗斗

出品|產業家

過去一年，AI行業最顯著的變化，是判斷AI進展的方式變了。過去一年，AI行業最顯著的變化，是判斷AI進展的方式變了。

在更長一段時間里，外界習慣用參數規模、榜單排名、融資金額和產品發布節奏來理解AI。但進入2025年后，這套敘事開始顯得不夠用了。模型還在變強，算力還在擴張，資本還在涌入，AI也正在進入科學、醫療、教育、企業服務和自動駕駛等更深的產業場景。可與此同時，頂級模型之間的性能差距正在縮小，前沿系統的透明度正在下降，算力和芯片供應鏈越來越集中，治理、能源、就業和公平問題也開始從幕后走到臺前。

這意味著，AI競爭正在從單點技術競賽，變成一場更復雜的系統競爭。真正值得追問的，已經不只是“誰的模型更強”，而是“誰能把AI變成穩定、可信、可規模化的生產力”。

也正是在這個節點，斯坦福大學以人為本人工智能研究院旗下AI Index項目發布了《2026 AI Index Report》。作為一份長期被全球政策界、學術界、產業界和媒體引用的年度報告，它并不只是一份技術榜單，而是試圖用跨越研發、技術性能、負責任AI、經濟、科學、醫學和教育等多個維度的數據，重新描繪AI產業的真實坐標。

這份報告釋放出的信號很清晰：AI的上半場，比的是模型能力和技術突破；AI的下半場，比的將是基礎設施、真實場景、商業效率和社會信任。換句話說，AI已經不再只是技術公司的故事，而是正在成為一套重新分配產業資源、人才結構和全球競爭優勢的新基礎設施。

圍繞這份報告，我們試圖從七個維度梳理2025年以來AI產業正在發生的關鍵變化。一個越來越明確的判斷是：當模型能力逐漸逼近，真正決定下一輪產業格局的，將是把技術落到產業深處的能力。

以下為報告轉譯后歸納總結：

要點概述：

1、AI 遠未見頂，反而在加速狂飆，正以史無前例的廣度野蠻滲透大眾

2、中美 AI 模型的性能鴻溝，如今已被生生抹平

3、既能斬獲奧數金牌，又會在數秒報時上淪為白癡， AI 陷入極度失衡的“參差前沿”

4、盡管機器人在受控環境中表現出色，但在大多數家務任務上仍束手無策

5、負責任的人工智能發展速度跟不上人工智能能力的提升，安全基準滯后，相關事件數量大幅上升

6、人工智能的普及速度正創下歷史紀錄，消費者正從這些通常免費使用的工具中獲得可觀價值

7、人工智能正在改變臨床醫療，但相關嚴謹的證據依然有限

一、研發進入巨頭時代：AI越來越強，也越來越不透明

2025年的AI研發呈現出一種鮮明的矛盾：一方面，支撐AI發展的資源還在增長，算力、開源項目、論文和專利都在繼續擴張；另一方面，真正處在前沿位置的模型系統卻越來越集中，透明度也在下降。

最直接的變化是，行業已經成為AI模型開發的絕對主角。2025年，行業產出了超過90%的知名AI模型，學術機構在前沿模型中的角色被進一步擠壓。原因并不復雜，訓練一個頂級模型所需要的算力、數據、工程團隊和資金投入，已經不是一般高校或研究機構能夠獨立承擔的。AI研發正在從過去相對開放的科研競爭，變成少數巨頭之間的基礎設施競賽。

但問題也隨之出現。越是性能最強的模型，往往越不透明。包括OpenAI、Anthropic、Google在內的多個資源消耗極高的系統，已經不再完整披露訓練代碼、參數數量、數據集規模和訓練時長。這讓外界很難判斷模型能力到底來自算法突破、數據質量、后訓練優化，還是單純的算力堆疊。AI越重要，社會越需要理解它；但AI越前沿，外部越難看清它。

與此同時，全球AI研發版圖也在發生變化。中國在論文發表數量、引用量和專利授權方面位居首位，在被引次數最高的100篇AI論文中所占比例也持續上升。美國則在知名模型開發方面保持領先，2025年研發出59個知名模型，中國為35個。換句話說，中國在研究產出和知識積累上更具規模優勢，美國仍掌握更多前沿模型和高影響力專利。

算力是這場競爭最硬的底座。自2022年以來，全球AI計算能力每年約增長3.3倍，到2025年已達到1710萬顆H100等效芯片的規模。英偉達占據總計算量的60%以上，谷歌和亞馬遜供應了剩余的大部分份額，華為雖然占比仍小，但份額正在增長。算力擴張背后，是超大規模數據中心建設和前沿模型訓練、推理需求的持續上升。

但越往底層看，風險越集中。美國擁有全球最多的數據中心，數量是其他任何國家的十倍以上；而臺積電幾乎制造了所有主流AI芯片，使全球AI硬件供應鏈高度依賴臺灣的一家代工廠。AI看似是云端軟件革命，底層卻是高度集中的半導體制造、能源供應和數據中心部署能力。

這種擴張還帶來了環境代價。2025年，Grok 4的訓練排放量預估達到72816噸二氧化碳當量；AI數據中心電力容量升至29.6吉瓦，接近紐約州峰值用電量；僅GPT-4o的年度推理用水量，就可能超過120萬人的飲用水需求。

AI越強，越不只是技術問題，而是能源、供應鏈和公共資源問題。

二、模型能力追平之后，競爭從“跑分”轉向“有用”

AI技術性能仍在快速提升，但2025年最重要的信號不是“模型又變強了”，而是“強模型之間越來越難拉開差距”。

在語言、推理、編碼、數學等基準測試上，前沿模型的分數持續上升，甚至開始超過部分人類水平。前沿模型在“人類終極考試”這一高難度基準上一年內提升了30個百分點，許多原本被認為可以持續多年檢驗模型能力的測試，只用了幾個月就被攻克。這說明AI進步速度已經超過評估體系的更新速度，舊的尺子正在變短。

當基準被快速刷穿，模型排名的意義就開始變化。到2026年3月，Anthropic、xAI、Google、OpenAI、阿里巴巴和深度求索均位于Arena Elo評分第一梯隊，其中多家公司的模型分差控制在很小范圍內。中美頂級模型之間的性能差距也基本彌合。2025年初以來，中美模型多次在性能排行榜首位置互換，DeepSeek-R1曾短暫與美國頂級模型持平，截至2026年3月，美國頂級模型僅以2.7%的優勢領先。

這背后的產業含義很清楚：當“能力領先”不再足以形成壓倒性差異，競爭壓力就會轉向成本、可靠性、領域性能和真實世界可用性。一個模型能不能便宜地調用，能不能穩定地完成任務，能不能在稅務、法律、財務、客服、代碼、醫療等專業場景中交付結果，將比單純跑分更重要。

開源與閉源的格局也出現反復。2024年，開源模型一度大幅縮小與閉源模型的差距，但到2025年，這一差距又重新擴大。截至2026年3月，頭部閉源模型領先頭部開源模型3.3%，Arena排行榜前十中有六個為閉源模型。這說明開源仍然是生態擴散和產業創新的重要力量，但在最前沿能力上，閉源巨頭仍借助算力、數據和工程優勢保持領先。

與此同時，AI能力呈現出一種“鋸齒狀智能”。它可以在國際數學奧林匹克競賽中拿到金牌，卻仍無法可靠識別模擬時鐘。Gemini Deep Think在2025年IMO中獲得35分金牌成績，但頂級模型在ClockBench上的模擬時鐘識別正確率只有50.6%，而人類為90.1%。這提醒我們，AI不是線性變聰明，而是在某些任務上突飛猛進，在另一些常識性任務上仍然脆弱。

更值得關注的是，AI正在從數字任務走向物理世界。視頻生成模型開始捕捉物體運動規律，不再只是生成逼真畫面。谷歌DeepMind的Veo 3在超過1.8萬個生成視頻測試中，展現出模擬浮力、解決迷宮等能力，且無需專門訓練。智能體也從回答問題進階到完成任務，OSWorld測試中的準確率從約12%提升至66.3%，與人類差距縮小到6個百分點以內。

但進入物理世界并不容易。機器人在模擬環境中的操作成功率可達89.4%，但在現實家庭任務中的成功率只有12%。

相比之下，自動駕駛成為少數已經實現大規模部署的例外。Waymo在美國五個城市每周行程約45萬次，百度Apollo Go完成了1100萬次全程無人駕駛行程。

AI正在靠近物理世界，但離真正穩定地理解和改造物理世界，還有很長一段路。

三、負責任AI開始補課：治理追不上部署，風險已經進入現實

隨著AI能力擴張，治理問題也被推到臺前。2025年的一個核心矛盾是，負責任AI的基礎設施正在建設，但速度遠遠趕不上AI部署。

安全基準在增加，更多組織開始制定負責任AI政策，政府支持的AI安全機構也擴展到更多國家。但這些動作更多像是在補課，而不是主動引領。幾乎所有領先模型開發者都會公布MMLU、SWE-bench等能力基準結果，但針對負責任AI基準測試的報告仍然很少。換句話說，企業很愿意展示模型有多強，卻不太愿意完整披露模型有多安全、多公平、多透明。

風險已經在現實中累積。人工智能事件數據庫顯示，2025年記錄到362起AI事件，高于2024年的233起。模型幻覺仍是突出問題。

在一項準確率基準測試中，26款主流模型的幻覺率在22%至94%之間。更微妙的是，模型難以區分“知識”和“信念”。當虛假陳述被表述為他人觀點時，模型還能較好處理；但當同一虛假陳述被表述為用戶觀點時，模型表現會大幅下降。這意味著模型不只是會編造信息，還可能受到提問方式和用戶立場的影響。

企業層面的治理意識確實在提升。2025年，AI專屬治理崗位增長17%，尚未制定負責任AI政策的企業占比從24%降至11%。

但落地仍然受制于現實條件，主要障礙包括知識缺口、預算限制和監管不確定性。很多企業不是不想治理，而是不知道怎么治理、沒有足夠資源治理，也不確定未來監管會如何變化。

監管框架也在轉向AI專屬體系。GDPR仍是被提及最多的監管影響因素，但影響力占比有所下降。與此同時，ISO/IEC 42001人工智能管理體系標準、NIST人工智能風險管理框架等更具體的AI治理工具開始進入企業視野。監管正在從隱私和數據合規，進一步走向模型開發、部署、監控和風險管理。

但更深層的挑戰是，AI治理并不是單一指標最優化。安全、公平、隱私、可解釋性之間可能存在沖突。近期研究發現，提升某一個負責任AI維度的訓練技術，可能持續損害其他維度。例如，隱私增強可能削弱公平性，安全優化可能降低準確率。今天行業還缺少成熟框架來處理這些權衡。

透明度下降則讓治理更難。基礎模型透明度指數在2023年至2024年從37分升至58分，但2025年又降至40分。訓練數據、計算資源和部署后影響的披露仍存在重大空白。

模型越被用于真實產業，外界越需要知道它的邊界；但前沿企業越是競爭激烈，越傾向于隱藏關鍵細節。這種張力，將成為AI下一階段最大的制度性難題之一。

四、錢還在涌入AI，但紅利分配并不均勻

技術競爭之外，AI經濟正在以前所未有的速度擴張。2025年，全球企業AI投資增長了一倍多，私人投資增長最快，增速達到127.5%，并占總投資的60%。生成式AI是這輪增長的核心，投資增速超過200%，幾乎占據私人人工智能融資總額的一半。新獲得融資的AI公司數量增長71%，十億美元級融資交易數量幾乎翻番。

但資金并沒有均勻流向全球。美國在AI私人投資領域繼續保持領先，投入資金是中國的23倍。在生成式AI領域，美國投資規模大幅超過中國和歐洲總和。這種差距顯示，美國仍掌握全球AI資本市場的主導權。不過，私人投資數據可能低估中國AI支出，因為中國政府引導基金在過去二十多年中已向AI企業投入大量資金。美國更強在市場資本和云基礎設施，中國則更多體現為產業政策、制造能力和應用場景的組合投入。

AI公司的收入增長速度也創下歷史紀錄。頭部企業在短時間內實現了可觀營收，但算力成本和基礎設施支出同樣飆升。云服務商加快資本開支，谷歌披露2025年年度資本支出超過1500億美元。這說明AI商業化并不是輕資產神話，而是一場重資產競賽。模型收入增長越快，背后的芯片、服務器、能源和數據中心投入也越大。

消費端已經證明AI具備真實價值。到2026年初，美國消費者從生成式AI中獲得的年度消費者剩余估計達到1720億美元，較一年前的1120億美元明顯增長，每位用戶的中位數價值翻了三倍。更關鍵的是，這些工具大多仍免費或接近免費。AI正在像搜索引擎和社交網絡一樣，先通過低成本、高頻使用形成普及，再逐步重構商業模式。

企業采用率也在提升。2025年，受訪企業中AI采用率達到88%，70%的企業至少在一項業務職能中應用生成式AI。中國和歐洲同比增幅位居前列。但智能體應用仍處于早期，在幾乎所有業務職能中的部署數量仍為個位數。企業已經接受AI工具，但還沒有大規模把AI交給自動化流程和關鍵業務閉環。

生產力提升也并非無處不在。AI在結構化、可量化、產出易監控的工作中效果最明顯，例如客戶支持效率提升14%至15%，軟件開發效率提升26%，營銷成果提升50%。但在需要深度推理、復雜判斷和長期經驗積累的任務中，提升幅度較小。AI正在創造價值，但它首先改變的是流程清晰、數據可得、反饋明確的工作，而不是所有工作。

五、醫療AI走過炫技階段，進入臨床證據之戰

醫療是AI最受期待、也最需要謹慎的領域。2025年，醫療AI在分子生物學、臨床推理、臨床記錄、診斷輔助和健康搜索等方向都有明顯進展，但一個核心問題越來越突出：模型的高分表現，并不等于真實臨床效果。

在分子生物學領域，小模型的表現開始挑戰“大模型崇拜”。MSAPairformer只有1.11億參數，卻在ProteinGym基準測試中超過以往領先方法；GPN-Star作為2億參數的基因組學模型，性能超過一個400億參數模型。這說明醫療和生命科學領域并不總是需要更大的通用模型，更小、更專業、更貼近領域數據的模型，可能反而更有效。

虛擬細胞模型成為新的前沿。Arc研究所的Evo 2、STATE以及DeepMind的AlphaGenome都指向同一個目標：在不進行濕實驗室實驗的情況下，預測細胞對藥物和基因擾動的反應。如果這一路徑成熟，藥物發現和生物實驗的成本結構將被重寫。但現階段，這些系統仍然需要實驗驗證，AI還不能替代真實生物學證據。

臨床應用中，最先跑出來的不是最炫的診斷模型，而是能嵌入醫生工作流的工具。2025年，能夠根據患者就診自動生成臨床筆記的AI工具得到廣泛應用。在多家醫療機構中，醫生表示寫病歷時間減少最高達83%，職業倦怠感也顯著下降，部分機構還實現了112%的投資回報率。

監管層面，AI醫療設備數量快速增加。2025年，美國FDA批準了258款AI醫療設備，但大多數通過無需開展新臨床試驗的渠道獲批。絕大多數設備是通過設備改造途徑進入市場，依賴現有安全性和有效性證據，而非新的隨機試驗。僅有2.4%的臨床研究設備得到隨機試驗數據支持。這意味著醫療AI的商業化速度，已經明顯快于臨床證據積累速度。

診斷能力也在提升。微軟AI診斷協調器搭配OpenAI o3模型，在復雜醫學案例研究中獲得85.5%的得分，而未借助輔助工具的醫生僅為20%。多智能體框架相比單智能體基準模型，診斷準確率提升7%至60%以上。但這類結果仍需要謹慎解讀，因為測試往往基于醫學文獻中的疑難病例，并不完全等同于真實醫院環境中的診療流程。

與此同時，患者正在更早接觸AI健康信息。如今，84%至92%的健康相關谷歌搜索結果頂部都會顯示AI生成摘要。癥狀和常見健康問題最容易觸發AI概述。這意味著很多患者在見醫生之前，已經通過AI形成對疾病、治療和風險的初步理解。問題在于，這些信息往往不經過正式醫療器械監管，卻可能影響患者決策。

因此，醫療AI下一階段的關鍵詞不是“模型多強”，而是證據、治理和倫理。它需要隨機試驗、真實世界數據、臨床責任邊界和更充分的倫理討論。AI對醫療的影響已經出現，但要真正規模化進入臨床，不能只靠演示和榜單，必須經得起醫學證據體系的檢驗。

把研發、技術、治理、經濟、科學、醫學和教育放在一起看，2025年的AI產業已經很難用“模型進步”四個字概括。

它當然還在變強。模型能力快速提升，中美差距縮小，視頻模型開始理解物理規律，智能體開始完成復雜任務，AI也正在進入科學、醫療和教育等高價值場景。但與此同時，AI也變得更昂貴、更集中、更不透明、更依賴基礎設施，并帶來更多治理、能源、就業和公平問題。

這正是AI進入下半場的標志。上半場比的是誰能訓練出更強模型，下半場比的是誰能把模型變成穩定、可靠、可監管、可商業化、可持續的生產力。

真正的產業價值，不會只屬于參數最多、榜單最高的模型，而會屬于那些能在真實場景中完成閉環的系統。它要接得住企業流程，扛得住醫療證據，經得起安全審查，解釋得清成本收益，也能在教育和勞動力市場中創造新的能力，而不是簡單替代舊崗位。

AI的故事還在加速，但它已經不再只是技術公司的故事。它是算力供應鏈的故事，是全球資本流動的故事，是科研范式變化的故事，是醫生、教師、學生、工程師和普通用戶共同參與的故事。

下一階段，AI最大的懸念不是它能不能繼續變強，而是它能不能被社會真正吸收，成為一種可信、可控、可分配的生產力。誰能回答這個問題，誰才真正站在AI產業的下一輪中心。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.