過去一年,AI 產(chǎn)品遍地,企業(yè)間交鋒白熱化,資本對(duì) AI 的下注同樣沒有放緩。
但熱潮下,整個(gè)行業(yè)暗藏著一絲難言的失望氣息:行業(yè)表面迭代飛速,各產(chǎn)品靠堆疊功能快速籠絡(luò)用戶,模型真正的智能提升卻相對(duì)有限。
很多跡象都在指向同一個(gè)判斷:2026年,我們需要關(guān)注 AI 基礎(chǔ)創(chuàng)新,關(guān)注那些真正能提升模型性能的工作。
一些頂尖 AI 研究者已經(jīng)開始明確呼吁。去年年末,自立門戶的前 OpenAI 首席科學(xué)家 Ilya Sutskever 在接受采訪時(shí)說:2020 - 2025 年是規(guī)模化時(shí)代。而 2026 年,行業(yè)將開始回歸研究時(shí)代。
近期,騰訊新任“AI 掌門人”姚順雨和阿里 Qwen 技術(shù)負(fù)責(zé)人林俊旸同臺(tái),同樣強(qiáng)調(diào) AI 需要底層創(chuàng)新,期待資源投入下一代研究中。
那么,2026 年到底有什么真正值得關(guān)注的 AI 研究方向?
針對(duì)這個(gè)話題,「四木相對(duì)論」邀請(qǐng)到一位 95 后 AI 研究者。他曾在八家海內(nèi)外 AI Startups / 大廠 / 科研機(jī)構(gòu)深度參與模型訓(xùn)練。同時(shí),他也常年參與前沿 AI Research 研究。我們結(jié)合他的觀察,梳理出 2025 年十大 AI 研究現(xiàn)狀,和 2026 年十大 AI 研究趨勢(shì)。
希望能為部分關(guān)心 AI 研究進(jìn)展的朋友,帶來些許參考。*文末附有全文速覽版
![]()
十大AI研究現(xiàn)狀
在這篇文章的第一部分,我們先關(guān)注已經(jīng)發(fā)生的重要 AI 研究進(jìn)展,總結(jié)出 AI 研究現(xiàn)狀,具體包括 Scaling Law 、RL 環(huán)境、持續(xù)學(xué)習(xí)等方向。
![]()
過去幾年,Scaling Law 幾乎統(tǒng)治了整個(gè) AI 界的認(rèn)知。但現(xiàn)在的信號(hào)已經(jīng)很明確:那個(gè)單純靠“堆參數(shù)、堆算力”就能換來性能暴漲的時(shí)代,接近尾聲。
如果說半年之前這件事還略有爭(zhēng)議,那現(xiàn)在我們必須直面這個(gè)事實(shí)。Ilya Sutskever 也直言,今天 AI 的瓶頸是想法而非算力。
這引出我們今天討論的主題 —— 在其他人在比拼 GPU 數(shù)量的時(shí)候,敢于回歸基礎(chǔ)研究、探索在有效性背后底層機(jī)制的團(tuán)隊(duì),大概率會(huì)在 2026 年之后收獲最大的回報(bào)。
![]()
鋸齒問題,指的是模型可通過高難度基準(zhǔn)測(cè)試,卻在基礎(chǔ)任務(wù)上反復(fù)出錯(cuò)。這是一種模型實(shí)際泛化能力較大偏離了紙面 Benchmark 分?jǐn)?shù)的現(xiàn)象。
最典型場(chǎng)景是代碼修復(fù)。SWE Agent 指出一個(gè) Bug 后道歉并引入第二個(gè) Bug,再次指出后又重新引入第一個(gè) Bug。這種現(xiàn)象揭示了一個(gè)更深層問題:我們并不理解模型在學(xué)什么。
現(xiàn)階段,人們過度依賴評(píng)估基準(zhǔn)來設(shè)計(jì)模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的后訓(xùn)練環(huán)境,這使得模型成為了超級(jí)應(yīng)試機(jī)器,對(duì)少數(shù)任務(wù)過度優(yōu)化,但對(duì)大量長(zhǎng)尾且重要的跨領(lǐng)域任務(wù)泛化不足。
而且,研究資源過度集中在人類已知答案或容易驗(yàn)證的領(lǐng)域,比如世界模型扎堆游戲和機(jī)器人仿真。很多企業(yè)、機(jī)構(gòu)和研究者癡迷于刷榜而非探索根本性的物理問題。
![]()
智能放緩的現(xiàn)狀,已經(jīng)讓 AI 生態(tài)發(fā)生了一些改變。
比如 2025 年,美國(guó)有 50 家左右的 AI 初創(chuàng)公司融資超過1億美元,其中相當(dāng)一部分是研究導(dǎo)向的 Lab。
比如 SSI 在 2025 年融了 20 億美元,專注于研發(fā)“安全超級(jí)智能系統(tǒng)”。研究超級(jí)人工智能的 Reflection AI 也獲得 20 億美元的 B 輪融資。海外資本用真金白銀證明,它們感興趣押注頂尖實(shí)驗(yàn)室團(tuán)隊(duì)進(jìn)行突破性研究。
![]()
OpenAI o1 / o3 和 DeepSeek-R1 的性能表現(xiàn)充分證明,推理時(shí)的計(jì)算投入和訓(xùn)練時(shí)算力堆砌一樣重要。
大量研究發(fā)現(xiàn),小模型經(jīng)過 RL 微調(diào)后,僅用數(shù)千個(gè)訓(xùn)練樣本和幾十美元的 GPU 預(yù)算,就能在 AIME25 等高難度評(píng)測(cè)基準(zhǔn)上反超龐大的 o1。
模型通過 RL,在不斷積累獎(jiǎng)勵(lì)的過程中所獲得的試錯(cuò)、自我反思等“經(jīng)驗(yàn)”,就像是人類通過實(shí)戰(zhàn)積累“經(jīng)驗(yàn)”,而不僅是簡(jiǎn)單的知識(shí)調(diào)用。
![]()
2025 年,李飛飛的 World Labs,Yann LeCun 離開 Meta 創(chuàng)辦的 AMI Labs,Google DeepMind 和 Runway 都先后推出了自己的世界模型。
這很重要,因?yàn)?AI 著實(shí)需要理解物理世界如何運(yùn)作,而不應(yīng)局限于預(yù)測(cè)下一個(gè)詞。這件事因大佬們的紛紛下場(chǎng)產(chǎn)生了競(jìng)賽式的大躍進(jìn)。
![]()
目前全球至少有數(shù)十家企業(yè)都在卷 RL 訓(xùn)練環(huán)境,比如復(fù)刻 DoorDash、Uber Eats 界面,讓 Agent 學(xué)習(xí)怎么操作這些網(wǎng)站。它們主要有以下幾種方式:
1. 克隆網(wǎng)站 GUI:每個(gè)網(wǎng)站環(huán)境花費(fèi)約 $20,000,OpenAI 已經(jīng)買了幾百個(gè)。
2.構(gòu)建軟件工程:從 GitHub 挖出 45 萬個(gè) PR,篩選出2萬多個(gè)有效軟件工程任務(wù)。
3.組合平臺(tái):把 Slack、Gmail、代碼編輯器組合起來,模擬真實(shí)的人類工作流。
但是,這些環(huán)境不夠。Agent 的能力上限,是由學(xué)習(xí)環(huán)境的真實(shí)性以及反饋來源的可靠性決定的。
當(dāng)前,傳統(tǒng)基于 Gym、MuJoCo 和 WebShop 等靜態(tài) RL 環(huán)境可能會(huì)被生成式仿真器取代。GPT 或 Sora 等生成模型已經(jīng)可以直接合成出與現(xiàn)實(shí)世界高度對(duì)應(yīng)、可交互的學(xué)習(xí)環(huán)境。
這意味著 RL 智能體不僅能在奧數(shù)題和代碼題等易驗(yàn)證的簡(jiǎn)易環(huán)境下訓(xùn)練,更會(huì)在可以模擬復(fù)雜流體、光影乃至材料質(zhì)感的“數(shù)字孿生”世界中持續(xù)演進(jìn)。
生成式環(huán)境將成為新一代的合成數(shù)據(jù)范式,從數(shù)量和質(zhì)量?jī)煞矫尜N近現(xiàn)實(shí)世界情境,推動(dòng) RL 訓(xùn)練的有效擴(kuò)展。
![]()
可解釋 AI 也是一個(gè)重要但容易被忽視的領(lǐng)域。它長(zhǎng)期面臨實(shí)用價(jià)值有限、局部可解釋和解釋結(jié)論不可靠這三大質(zhì)疑。這方面的前沿研究目前主要由 Anthropic 、DeepMind 和極少數(shù)高校實(shí)驗(yàn)室推進(jìn)。
2025年,可解釋 AI 的關(guān)注焦點(diǎn)轉(zhuǎn)向了推理模型思維鏈的“不忠實(shí)”問題。一項(xiàng)名為《Reasoning Models Don't Always Say What They Think》的研究揭示了推理模型在生成思維鏈(Chain of Thought, CoT)時(shí)的“忠誠(chéng)性”問題。也就是說,模型可能不會(huì)真實(shí)地反映自己內(nèi)部的推理過程,而是在一定程度上輸出和答案虛假相關(guān)的 CoT。
大家開始意識(shí)到:如何對(duì)推理模型內(nèi)部思考過程的忠實(shí)性進(jìn)行持續(xù)監(jiān)控與治理已成為亟待解決的問題。
![]()
關(guān)于模型架構(gòu)的創(chuàng)新,目前存在一些瓶頸。
首先,線性的檢索能力和推理能力不足的問題始終沒能得到很好的解決。
而且,傳統(tǒng)的多層感知器(MLP)可解釋性較差、計(jì)算效率低,但以 KAN (Kolmogorov–Arnold Networks)為代表新型方案,還沒有經(jīng)過充分的工業(yè)驗(yàn)證和優(yōu)化。
混合架構(gòu)模型雖熱門,但很多工作僅是把 Transformer 和 SSM (State Space Model)拼起來,還停留在“試試看能不能 Work”階段,缺乏對(duì)“什么任務(wù)特性需要什么機(jī)制”的本質(zhì)探索。所以多數(shù)的架構(gòu)研究看似熱鬧,實(shí)際還在小步慢跑的階段。架構(gòu)創(chuàng)新正逐漸觸及當(dāng)前的天花板。
![]()
傳統(tǒng)的評(píng)測(cè)基準(zhǔn)已被刷爆,雖然有 HLE (Humanity’s Last Exam)和 FrontierScience 等新 Long-horizon Evals 出現(xiàn),但它們目前仍缺乏對(duì)模型實(shí)際計(jì)算過程和忠實(shí)性的衡量。
從古早的 GLUE 、 MMLU 到2025年的長(zhǎng)周期 Agent 能力評(píng)估,通用評(píng)測(cè)基準(zhǔn)以各種模態(tài)的人類頂級(jí)推理問題考驗(yàn)?zāi)P偷姆夯憩F(xiàn),但卻只關(guān)注實(shí)效性(如 Pass@K 和 Success Rate),無法反映模型的實(shí)際計(jì)算過程和推理忠實(shí)性。
![]()
這個(gè)話題正在逐步破圈。
模型的參數(shù)記憶并不是單義性的“知識(shí)”,而是固化的、能相互影響的任務(wù)執(zhí)行能力。相比于 One-take 情況下就能很好解決的數(shù)學(xué)和代碼任務(wù),像 SWE、級(jí)聯(lián)訂單查詢與自動(dòng)化支付這種長(zhǎng)程問題,執(zhí)行效果非常依賴 Agent 持續(xù)學(xué)習(xí)能力的改進(jìn)。
如何實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的“存算分離”,以及如何有效利用稀疏電路在冗長(zhǎng)上文內(nèi)進(jìn)行知識(shí)召回,成了減緩上文幻覺、推理不忠實(shí)和工作流記憶退化等問題的關(guān)鍵突破口。
十大AI研究趨勢(shì)
針對(duì)已經(jīng)發(fā)生的研究現(xiàn)狀,我們提煉出 RL、持續(xù)學(xué)習(xí)、多模態(tài)、注意力機(jī)制優(yōu)化等領(lǐng)域?qū)?huì)發(fā)生的變化。當(dāng)然,它們中的一些已經(jīng)產(chǎn)生進(jìn)展。
![]()
人類學(xué)會(huì)開車只需要數(shù)十小時(shí),而 AI 卻要依賴海量模擬軌跡才能完成學(xué)習(xí)。這種巨大的效率差異,正在推動(dòng)“高效泛化機(jī)制”的研究。
Ilya 曾提出一個(gè)觀點(diǎn):人類情感可以看作是生物層面“硬編碼”的價(jià)值函數(shù),能夠幫助我們提前做出啟發(fā)式?jīng)Q策。這一判斷也為 2026 年優(yōu)化 AI 決策路徑提供了新思路。
2025 年,DeepSeek 就借助 DSA 稀疏注意力與 Engram 記憶存儲(chǔ)模塊,開始探索一條讓模型更“智能”、而非單純更“龐大”的技術(shù)路線。
進(jìn)入 2026 年,預(yù)計(jì)會(huì)有更多研究團(tuán)隊(duì)在這一方向持續(xù)深耕:從上文工程、工具調(diào)用編排到技能優(yōu)化,從量化推理算力的有效投入,到追求合理的范式組合,而非一味追求數(shù)據(jù)與算力的規(guī)模擴(kuò)張。
2026 年,高效訓(xùn)練方法將成為主流競(jìng)爭(zhēng)力,訓(xùn)練時(shí)的規(guī)模擴(kuò)展不再是最優(yōu)解。
![]()
2025 年,世界模型已能夠生成視覺連貫的視頻內(nèi)容,但在長(zhǎng)時(shí)間序列中仍面臨物理規(guī)律理解不足、自回歸誤差累積等核心挑戰(zhàn)。Runway 的 GWM-1 等方案嘗試通過逐幀預(yù)測(cè)來保持一致性,但這是否為最優(yōu)解,目前尚無定論。
步入 2026 年,更多團(tuán)隊(duì)在物理一致性基礎(chǔ)研究上發(fā)力,探索如何讓模型真正理解物理規(guī)律而非僅模仿表象。
![]()
2025 年,強(qiáng)化學(xué)習(xí)不再被“人工搭建環(huán)境”的高昂成本卡脖子。
DeepSeek-V3.2 等模型開始嘗試用代碼自動(dòng)生成合成任務(wù) —— 利用代碼天然的可驗(yàn)證邏輯,智能體可以在無需人工干預(yù)的“合成練兵場(chǎng)”里高效特訓(xùn),迅速掌握解決通用難題的能力。
進(jìn)入 2026 年,生成式環(huán)境將打破 Sim-to-Real 的壁壘。超越搜索、GUI 等靜態(tài)任務(wù),未來的訓(xùn)練環(huán)境將直接從生成模型中“蒸餾”而來。這種不再受限于人工設(shè)計(jì)的交互環(huán)境,將讓真實(shí)世界的“經(jīng)驗(yàn)重放”規(guī)模呈現(xiàn)大規(guī)模增長(zhǎng),徹底改變 AI 理解物理世界的方式。
![]()
2025 年,我們見證了強(qiáng)化學(xué)習(xí)反饋從稀疏信號(hào)到密集語言的演化:從 2021-2024 年的判別式獎(jiǎng)勵(lì)模型,到 2025 年初 DeepSeek-R1 的 RLVR 范式,再到 2025 年下半年的生成式過程獎(jiǎng)勵(lì)。
環(huán)境已經(jīng)能夠用自然語言告訴 Agent:“你的決策在某個(gè)環(huán)節(jié)出錯(cuò),不滿足某個(gè)評(píng)分標(biāo)準(zhǔn)。”
2026 年,我們將看到「動(dòng)態(tài) RL 環(huán)境 + 動(dòng)態(tài)獎(jiǎng)勵(lì)評(píng)分標(biāo)準(zhǔn)」的協(xié)同優(yōu)化成為主流實(shí)踐。也就是,獎(jiǎng)勵(lì)來源不再是靜態(tài)固定的,而會(huì)根據(jù)任務(wù)復(fù)雜度和 Agent 能力進(jìn)行實(shí)時(shí)調(diào)整,形成自適應(yīng)的訓(xùn)練閉環(huán)。
![]()
2025 年,OpenAI o1、DeepSeek R1 等模型“涌現(xiàn)”出令人意外的新行為,它們會(huì)察覺自己正在被評(píng)測(cè)并隱藏已掌握的知識(shí),能反思自身推理過程,甚至在特定條件下表現(xiàn)出策略性、操縱性乃至欺詐性的行為。
2026 年,隨著學(xué)界對(duì)這些行為的研究深入,預(yù)計(jì)會(huì)看到新的、專門針對(duì)模型涌現(xiàn)行為的探測(cè)方法和評(píng)估框架。它們將用于實(shí)時(shí)監(jiān)控訓(xùn)練和推理過程中的動(dòng)態(tài)變化,確保模型行為的可控性和透明度。
![]()
2025 年,AI 合規(guī)開始從事后分析轉(zhuǎn)向全生命周期監(jiān)督,Anthropic 和 DeepMind 引領(lǐng)了鏈?zhǔn)剿季S監(jiān)測(cè)和隱向量探測(cè)等技術(shù)的研究。
2026 年,隨著監(jiān)管生態(tài)鏈需求持續(xù)增長(zhǎng),這些動(dòng)態(tài)監(jiān)測(cè)技術(shù)將貫穿智能體開發(fā)的生命周期,從預(yù)訓(xùn)練到后訓(xùn)練、從評(píng)估到部署的完整流程,形成系統(tǒng)化的合規(guī)解決方案。
![]()
2025 年,行業(yè)對(duì)注意力機(jī)制的優(yōu)化大多聚焦于提升推理效率,核心目標(biāo)是 “更快”,但標(biāo)準(zhǔn)注意力模塊依舊處于灰盒狀態(tài)。我們并不清楚模型在關(guān)注什么,也難以約束它。
邁入 2026 年,研究重心將從 “提速” 轉(zhuǎn)向 “可控”,預(yù)計(jì)會(huì)出現(xiàn)兩大關(guān)鍵突破方向:
一是從先驗(yàn)層面進(jìn)行結(jié)構(gòu)化干預(yù)。在代碼生成等場(chǎng)景中,讓模型優(yōu)先聚焦函數(shù)簽名等核心信息;二是從后驗(yàn)層面構(gòu)建注意力反饋機(jī)制,建立信息關(guān)注與利用的反饋機(jī)制,讓模型根據(jù)任務(wù)難度自適應(yīng)選擇稀疏或稠密激活模式,也就是實(shí)現(xiàn)多粒度的注意力分配。
![]()
2025 年的多模態(tài)模型,雖然名義上打通了視覺、文本和聽覺,但本質(zhì)上仍處于“模態(tài)表征空間未對(duì)齊”的尷尬階段。
這就好比我們將圖像、文本和音頻的數(shù)據(jù)強(qiáng)行拉到了同一個(gè)房間(投影到同一空間),但它們依然說著不同的語言 —— 各模態(tài) Embedding 的分布密度、甚至底層的幾何流形(Geometric Manifold)都存在顯著差異。這種深層的隔閡,導(dǎo)致了跨模態(tài)推理的效果常常差強(qiáng)人意。
2026 年,隨著第一代產(chǎn)品積累了大量真實(shí)反饋數(shù)據(jù),轉(zhuǎn)折點(diǎn)即將出現(xiàn)。
我們可能會(huì)看到統(tǒng)一編碼方案的新探索,讓不同模態(tài) Token 具備可比性。在跨模態(tài)注意力機(jī)制方向,也會(huì)有理解模態(tài)間語義對(duì)應(yīng)關(guān)系的突破性改變,推動(dòng)多模態(tài)模型從“拼接”走向“融合”。
![]()
2025 年,評(píng)測(cè)體系開始從“已知驗(yàn)證”向“未知探索”轉(zhuǎn)變。
新一代 Benchmark 不再局限于人類已解決的經(jīng)典問題,開始聚焦尚未形成標(biāo)準(zhǔn)答案的前沿難題;評(píng)測(cè)重點(diǎn)也將從三段論式的演繹推理,進(jìn)一步拓展至歸納推理能力;評(píng)價(jià)指標(biāo)則在準(zhǔn)確率、成功率之外,延伸到推理忠實(shí)性、系統(tǒng)安全性與交互宜人性。
2026 年,隨著這類新型評(píng)測(cè)基準(zhǔn)投入使用并持續(xù)積累反饋數(shù)據(jù),評(píng)測(cè)標(biāo)準(zhǔn)將進(jìn)一步細(xì)化,出現(xiàn)面向特定領(lǐng)域未解難題的專項(xiàng)測(cè)試集。同時(shí),行業(yè)可能還會(huì)出現(xiàn)更成熟的多維度評(píng)估框架,綜合衡量模型在復(fù)雜場(chǎng)景下的整體表現(xiàn)。
![]()
這個(gè)方向非常重要,直接決定了智能體適應(yīng)新環(huán)境的實(shí)時(shí)更新能力。
2025 年,我們看到推理時(shí)訓(xùn)練與模型架構(gòu)適配性設(shè)計(jì)開始深度融合,這為記憶機(jī)制創(chuàng)新打了基礎(chǔ)。
到了 2026 年,我們會(huì)迎來拐點(diǎn) —— AI 的記憶召回與持續(xù)學(xué)習(xí),會(huì)轉(zhuǎn)向解耦式的分層狀態(tài)。
過去 AI 處理長(zhǎng)任務(wù)(比如復(fù)雜的支付協(xié)議)主要靠“硬抗”,一旦信息太長(zhǎng)就容易顧頭不顧尾。而一些新機(jī)制的設(shè)計(jì),是將復(fù)雜的工作流拆解為一個(gè)個(gè)可驗(yàn)證的“原子操作”,并在執(zhí)行的過程中,實(shí)時(shí)更新局部模型權(quán)重。這樣做可以實(shí)現(xiàn)即時(shí)的 Agent 知識(shí)更新與能力適配。
這帶來的改變是顛覆性的:AI 將具備“滾動(dòng)更新式持續(xù)學(xué)習(xí)”的能力。
這種能力將使模型突破 Context Window 的物理限制。通過對(duì)信息進(jìn)行動(dòng)態(tài)壓縮和邏輯重組,Agent 在處理長(zhǎng)周期任務(wù)時(shí),將展現(xiàn)出更高的執(zhí)行穩(wěn)健性,從根本上緩解任務(wù)執(zhí)行中的幻覺漂移與經(jīng)驗(yàn)退化問題。
總之在2026年,AI 研究的競(jìng)爭(zhēng)將圍繞“更好的想法而非更大的算力”展開。
真正的突破,將來自于回答“為什么有效”,來自于理解智能本質(zhì)而非擬合 Benchmark 指標(biāo)。在其他人比拼 GPU 數(shù)量時(shí),敢于 Think Different,探索有效性背后底層機(jī)制的團(tuán)隊(duì),會(huì)在重啟研究的時(shí)代中獲得更大的回報(bào)。
*全文速覽版
![]()
![]()
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.