![]()
這支團(tuán)隊,做過AI史上最酷的事
“你不能指望僅僅通過prompt設(shè)計,就讓一個Agent變得穩(wěn)定、可靠。你需要的是能夠‘犯錯-糾正-在交互中持續(xù)改進(jìn)’的模型,并在這個過程中發(fā)展出真正的推理能力。”
這句話出自Striker Venture Partners的合伙人Brian Zhan。2025年初,當(dāng)AI市場都在聚焦Transformer的Scaling Law、熱議參數(shù)與算力時,他領(lǐng)投了一家當(dāng)時估值還不到6億美元的小公司——Reflection AI。
在接受Z Potentials采訪時,他表示他的判斷依據(jù)很簡單:這支團(tuán)隊把世界上最優(yōu)秀的一批強化學(xué)習(xí)研究者聚到了一起,而強化學(xué)習(xí)(RL)才是讓Agent基礎(chǔ)模型真正“好用、可靠”的關(guān)鍵突破口。
十個月后,Reflection AI成為了2025年最耀眼的AI獨角獸之一。再過去五個月,它的估值又翻了整整三倍。
2026年3月26日,《華爾街日報》爆料:Reflection AI正在進(jìn)行新一輪融資,投前估值250億美元,預(yù)計融資25億美元。JPMorgan Chase計劃通過其新成立的Security and Resiliency Initiative參與本輪投資,其早期投資者Disruptive也計劃繼續(xù)跟投。
而就在十天前,這家公司也剛剛成為英偉達(dá)Nemotron Coalition的創(chuàng)始成員——這是一個由英偉達(dá)牽頭、旨在推動開源前沿模型發(fā)展的全球AI聯(lián)盟。
從2024年3月成立至今,Reflection AI用了兩年時間走完了從0到250億美元(約1728億元人民幣)的估值躍遷。2024年它的收入還是0,2025年收入已經(jīng)有2000萬美元,而它的團(tuán)隊只有79個人。
同時,它也被譽為“美國版DeepSeek”,肩負(fù)著西方開源AI陣營對抗中國模型的“戰(zhàn)略使命”。黃仁勛不僅為它投了8億美元,還派出了工程師幫它優(yōu)化芯片性能。前Google CEO Eric Schmidt、Zoom創(chuàng)始人Eric Yuan、光速創(chuàng)投、紅杉資本……一眾硅谷頂級資本也悉數(shù)入場給它投了錢。
Reflection AI,到底是一家怎樣的公司?
從AlphaGo到Gemini:這支團(tuán)隊做過AI史上“最酷的事”
Reflection AI的故事要從兩個人說起。
Misha Laskin,Reflection AI的創(chuàng)始人兼CEO,俄羅斯裔以色列人,耶魯本科學(xué)的物理,同時也是芝加哥大學(xué)的理論物理博士。2017年,他入選福布斯30 under 30,那時候他剛結(jié)束第一段創(chuàng)業(yè)——一家做零售庫存預(yù)測的Y Combinator公司,Claire。在與Manifold的采訪中,他回憶那段創(chuàng)業(yè)經(jīng)歷時坦言:“我學(xué)到了很多,但主要是明白了自己不想要什么。”他發(fā)現(xiàn)自己對零售行業(yè)并沒有“深層的共情”,而他職業(yè)生涯真正的轉(zhuǎn)折點是在2016年——當(dāng)他看到了AlphaGo。
“那改變了我的人生軌跡,”Misha說,“我當(dāng)時就覺得,這是我這個時代最重要的科學(xué)。”他放下一切,自學(xué)編程,去UC Berkeley做博士后研究深度學(xué)習(xí)和強化學(xué)習(xí)。后來加入了Google DeepMind,領(lǐng)導(dǎo)Gemini項目的獎勵模型開發(fā)。
在Manifold采訪中,他回憶起ChatGPT發(fā)布的那天,他正在新奧爾良的一個會議上做演講,“我突然有一種抽離感——我為什么要說這些話?”
那一刻他意識到,語言模型已經(jīng)解決了AI的“泛化問題”。在此之前,強化學(xué)習(xí)算法雖然強大,但只能在非常狹窄的領(lǐng)域工作——AlphaGo下圍棋無敵,但換個游戲就要重新訓(xùn)練。而ChatGPT展示了一種前所未有的通用性:你可以向它提問任何問題,它基本上都能給出合理的回答。
“這是一個從0到1的時刻,”Misha說,“歷史學(xué)家們回頭看,就會看到那是一個斷層。”
Reflection AI的另一位創(chuàng)始人Ioannis Antonoglou的來頭更大。他是DeepMind的創(chuàng)始工程師,AlphaGo的核心開發(fā)者之一。2016年那場震驚世界的圍棋“人機大戰(zhàn)”,李世石輸?shù)舻乃木制澹澈缶陀兴氖止P。
Misha回憶AlphaGo那手被驚呼“非人類下法”的“第37步”棋時說:“那一步太壯觀了……它展示了系統(tǒng)對游戲有深刻的理解,它有創(chuàng)造力,它能想到人類從未想到過的東西。”
在AlphaGo之后,Ioannis進(jìn)一步推進(jìn)了AlphaZero——完全通過自我對弈學(xué)習(xí)、無需人類指導(dǎo)就能掌握游戲的AI;還有MuZero——連游戲規(guī)則都不需要被告知,就能征服圍棋、國際象棋、將棋、Atari游戲的更高級突破。
Misha與Ioannis是在DeepMind相識的,一個專注強化學(xué)習(xí),一個深耕大語言模型。2024年3月,他們離開Google,創(chuàng)立了Reflection AI。
這個團(tuán)隊的其他成員同樣星光熠熠:Deep Q Networks、PaLM、Character AI、ChatGPT、Gemini……這些AI史上最重要的突破,都有Reflection團(tuán)隊成員的參與。用紅杉資本合伙人Stephanie Zhan的話說:“這不是一群想做AI的人,這是一群已經(jīng)做過AI領(lǐng)域最酷的事的人。”
他們的融資歷程堪稱火箭速度:
2025年3月,彭博社曝出Reflection AI共完成了1.3億美元融資,當(dāng)時估值5.8億美元,其中包含紅杉資本和CRV領(lǐng)投的2500萬美元天使輪,以及光速創(chuàng)投(Lightspeed Venture Partners)和CRV領(lǐng)投的1.05億美元A輪融資;
2025年10月,B輪融資20億美元,估值80億美元,Reflection AI正式成為了獨角獸;本輪融資英偉達(dá)領(lǐng)投8億美元,DST、1789 Capital(Donald Trump Jr.,特朗普的小兒子為合伙人的機構(gòu))、谷歌前CEO Eric Schmidt、Zoom創(chuàng)始人Eric Yuan都進(jìn)行了投資,光速創(chuàng)投和紅杉資本繼續(xù)加碼。
2026年3月,Reflection AI正在新一輪融資洽談中,投前估值達(dá)到了250億美元,JPMorgan Chase和Disruptive等機構(gòu)計劃參與本輪融資。
從5.8億到80億再到250億,估值漲幅超過40倍,Reflection AI只用了兩年的時間。
![]()
圖源:Reflection AI官網(wǎng)
開源還是閉源?AI世界的“路線之爭”
Reflection AI選擇了一條與OpenAI、Anthropic截然不同的路——開源。
什么是開源?簡單說,就是把AI模型的權(quán)重和架構(gòu)公開,任何人都可以下載、使用、修改、再分發(fā)。與之相對的閉源,就是把模型當(dāng)成“黑盒”,用戶只能通過API調(diào)用,看不到內(nèi)部結(jié)構(gòu),更無法修改。
目前大模型主要分為開源與閉源兩大陣營,開源陣營包括Meta的Llama系列、以及中國的DeepSeek、阿里的千問系列等;閉源陣營有OpenAI的GPT系列、Anthropic的Claude、Google的Gemini,還有字節(jié)跳動的豆包等。行業(yè)中也存在部分介于開源與閉源之間的混合開放形態(tài)模型。
為什么Reflection AI要開源?Misha Laskin在英偉達(dá)官宣它得開源聯(lián)盟Nemotron Coalition時給出了答案:“技術(shù)進(jìn)步是由開放和協(xié)作的價值觀驅(qū)動的。Reflection正在確保智能基礎(chǔ)保持開放——不被少數(shù)人控制——并在全球范圍內(nèi)可及。”
這背后的真實原因還有一個:在開源AI領(lǐng)域,美國正在輸給中國。
根據(jù)Hugging Face的數(shù)據(jù),2024年中國開源模型的下載份額達(dá)到17%,超過了美國模型的15.8%。DeepSeek憑借免費、高性能、可定制的策略,在全球南部市場快速擴(kuò)張。而在LMArena的AI模型排行榜上,截至2025年8月,前30名開源模型中無一款來自美國公司。
Misha Laskin在《紐約時報》的專訪中直言:“美國在開源領(lǐng)域,正存在一個DeepSeek式的空白。”他認(rèn)為,如果西方世界沒有自己的開源前沿模型,其他國家最終會選擇中國技術(shù)。
開源模型的優(yōu)勢在于:成本更低、可定制性更強、數(shù)據(jù)安全可控。企業(yè)可以針對自己的業(yè)務(wù)場景進(jìn)行微調(diào),而不必把敏感數(shù)據(jù)發(fā)給第三方API。對于政府和大型企業(yè)來說,“主權(quán)AI”的概念越來越重要——他們希望AI基礎(chǔ)設(shè)施掌握在自己手里,而不是依賴某個美國或中國公司的閉源系統(tǒng)。
Reflection AI的核心技術(shù)叫Reflection-Tuning,它讓模型能夠檢測和糾正自己的推理錯誤。這種技術(shù)的本質(zhì)是讓AI具備“自我反思”能力——當(dāng)模型發(fā)現(xiàn)自己犯了錯誤時,能夠主動修正并從中學(xué)習(xí)。這與傳統(tǒng)的監(jiān)督學(xué)習(xí)不同,后者只是讓模型模仿人類標(biāo)注的數(shù)據(jù),而Reflection-Tuning讓模型在交互中持續(xù)改進(jìn)。
他們開發(fā)的自主編程Agent叫Asimov,能夠直接接入企業(yè)的代碼庫,自動完成重構(gòu)、測試、部署等工程任務(wù)。與GitHub Copilot等代碼助手不同,Asimov的目標(biāo)不是輔助程序員寫代碼,而是完全自主地完成工程任務(wù)。它可以理解整個代碼庫的架構(gòu),自動發(fā)現(xiàn)bug、優(yōu)化性能、生成測試用例,甚至部署到生產(chǎn)環(huán)境。
2025年10月,Asimov開始為Reflection AI產(chǎn)生收入;到2025年底,它的年收入達(dá)到了2000萬美元。對于一個當(dāng)時成立不到兩年的公司來說,這個商業(yè)化速度相當(dāng)驚人。
2026年3月16日,英偉達(dá)官宣Nemotron Coalition,Reflection AI與Black Forest Labs、Cursor、LangChain、Mistral AI、Perplexity、Sarvam、Thinking Machines Lab成為了創(chuàng)始成員。這個聯(lián)盟的目標(biāo)是共同開發(fā)開源前沿模型,第一款模型將由Mistral AI和英偉達(dá)聯(lián)合開發(fā),聯(lián)盟成員貢獻(xiàn)數(shù)據(jù)、評估和領(lǐng)域?qū)I(yè)知識。
Reflection AI在這個聯(lián)盟中的角色是:貢獻(xiàn)構(gòu)建可靠開放系統(tǒng)的專業(yè)知識。換句話說,它要幫英偉達(dá)打造一個“可信的開源生態(tài)”。英偉達(dá)在這個聯(lián)盟中扮演的角色不言自明:提供算力基礎(chǔ)設(shè)施。聯(lián)盟開發(fā)的第一款模型將在NVIDIA DGX Cloud上訓(xùn)練,并作為NVIDIA Nemotron 4系列模型的基礎(chǔ)開源發(fā)布。
黃仁勛在官宣聲明中說:“開放模型是創(chuàng)新的生命線,是全球參與AI革命的引擎——對學(xué)生、科學(xué)家、初創(chuàng)公司和整個行業(yè)都是如此。”
“美版DeepSeek”背后,中美AI正在互相“偷師”
Reflection AI被稱為“美國版DeepSeek”,這個標(biāo)簽既是一種贊譽,也是一種焦慮。
贊譽在于,它代表了西方開源陣營;焦慮在于,這個標(biāo)簽本身就說明DeepSeek已經(jīng)定義了開源AI的標(biāo)準(zhǔn)。
DeepSeek做了什么?2024年底,這家中國公司發(fā)布了DeepSeek-V3和R1系列模型,性能接近OpenAI的GPT-4,但訓(xùn)練成本只有后者的十分之一,而且是完全開源的。它用工程創(chuàng)新打破了“堆算力”的“迷信”,證明了中國公司在前沿AI領(lǐng)域的競爭力。
但中國AI大模型的崛起,也引發(fā)了西方業(yè)界的警惕與焦慮。2026年2月23日,Anthropic在官方博客發(fā)布聲明,指控DeepSeek、月之暗面(Moonshot AI)和MiniMax對其Claude模型發(fā)起了“工業(yè)級蒸餾攻擊”——簡單說,就是涉嫌用Anthropic的模型輸出來訓(xùn)練自己的模型。而這類蒸餾行為在AI領(lǐng)域本就十分普遍,馬斯克甚至還公然嘲諷了Anthropic的這一表態(tài)。
諷刺的是,僅僅一個月后,劇情反轉(zhuǎn)。2026年3月20日,硅谷編程工具巨頭Cursor發(fā)布了一款“自研突破”產(chǎn)品,卻被扒出核心模型來自中國AI公司月之暗面的Kimi K2.5。Cursor的宣傳文案里,只字未提Kimi的名字。
這是當(dāng)下中美AI競爭的真實寫照:互相借鑒、互相警惕、互相超越。
Reflection AI的應(yīng)對策略是“主權(quán)AI”。2026年初,它與韓國新世界集團(tuán)(Shinsegae Group)達(dá)成協(xié)議,投入數(shù)十億美元開發(fā)韓語定制模型,數(shù)千塊英偉達(dá)芯片將支撐這個項目的數(shù)據(jù)中心。Reflection的計劃是:與全球美國盟友合作,成為各國“主權(quán)云”的默認(rèn)開源選擇。
這種模式的優(yōu)勢在于他們的雙贏:各國獲得了AI主權(quán),Reflection獲得市場和收入,英偉達(dá)賣出更多芯片。正如Misha Laskin所言:“開放模型是其配套基礎(chǔ)設(shè)施的特洛伊木馬。”
Reflection AI與英偉達(dá)的關(guān)系遠(yuǎn)比普通投資關(guān)系更緊密。據(jù)《華爾街日報》報道,英偉達(dá)不僅給它投了8億美元,還派出多名工程師與Reflection AI合作,幫助優(yōu)化其最新一代AI芯片的性能。這種“投資+技術(shù)賦能”的模式,讓Reflection AI在算力競爭中占據(jù)了獨特優(yōu)勢。
但挑戰(zhàn)同樣巨大。Reflection AI能否真正成為“西方的DeepSeek”,還要看它接下來的模型表現(xiàn)和商業(yè)化進(jìn)展。
更重要的是,Reflection AI需要證明開源模式能夠支撐起一個可持續(xù)的商業(yè)模式。目前它的收入主要來自企業(yè)客戶訂閱,但2000萬美元的年收入相對于250億美元的估值來說仍然微不足道。投資者押注的是未來——當(dāng)AI Agent成為企業(yè)標(biāo)配時,Reflection AI能否占據(jù)一席之地?
更宏觀地看,中美AI競爭正在進(jìn)入一個新階段。第一階段是比誰參數(shù)多、算力強;第二階段是比誰成本低、效率高;現(xiàn)在進(jìn)入了第三階段——比誰生態(tài)開放、誰盟友多。開源vs閉源、主權(quán)AI vs全球云、中國模式vs美國模式……這些路線之爭將定義未來十年的AI格局。
從全球視角來看,AI競爭已經(jīng)不僅僅是技術(shù)層面的較量,更是地緣政治博弈的延伸。美國政府正在積極扶持本土開源AI企業(yè),以應(yīng)對中國大模型的崛起。白宮科技政策辦公室主任Michael Kratsios在2026年2月表示:“政府的目標(biāo)是創(chuàng)造一個讓開源模型能夠蓬勃發(fā)展的生態(tài)系統(tǒng)。”據(jù)《金融時報》報道,美國政府甚至考慮與Reflection AI簽訂合約,將其作為OpenAI和Anthropic閉源模型的替代方案。
這種戰(zhàn)略考量背后,是美國對于AI主權(quán)的深層焦慮。閉源模型雖然性能強大,但企業(yè)或政府無法完全控制自己的數(shù)據(jù);而開源模型允許本地部署、自主定制,對于重視數(shù)據(jù)安全的主權(quán)國家來說更具吸引力。Reflection AI正是看準(zhǔn)了這一趨勢,將自己定位為“西方開源陣營的領(lǐng)導(dǎo)者”。
Misha Laskin在接受《紐約時報》采訪時放話:“我預(yù)計我們有望成長為比當(dāng)下超大規(guī)模云服務(wù)商更具規(guī)模的公司。”兩位見證過AlphaGo擊敗李世石的AI先行者,正以Reflection AI為支點,對開源AI的未來發(fā)起新的下注。
結(jié)語
Reflection AI,是一個關(guān)于“信念”的故事。
Misha Laskin在博士畢業(yè)時放棄了自己深耕近十年的理論物理,因為“很難想象要等幾十年才能知道自己做的東西是否有成果”。
直覺式的判斷,最終讓他和Ioannis Antonoglou一起,在2024年3月創(chuàng)立了Reflection AI。他們的信念很簡單:強化學(xué)習(xí)+大語言模型=超級智能Agent,而開源是讓這項技術(shù)惠及世界的最佳方式。
兩年過去,這支79人的團(tuán)隊從0做到250億美元估值,從默默無聞到成為英偉達(dá)戰(zhàn)略版圖的核心一環(huán)。他們的投資者名單里,既有硅谷最激進(jìn)的風(fēng)險資本,也有傳統(tǒng)金融巨頭,甚至還有特朗普家族的身影。
它代表著開源AI陣營的崛起,代表著美國對中國AI的焦慮,也代表著AI行業(yè)未來或?qū)摹伴]源壟斷”走向“開放生態(tài)”。
正如Misha Laskin所說:“AlphaGo從未停止進(jìn)化。若投入十倍、甚至百倍的資源,就能得到一個智能水平更高的超級AlphaGo。本質(zhì)上,這類系統(tǒng)的學(xué)習(xí)潛力沒有上限,完全取決于你愿意投入多少資源。”
Reflection AI的旅程,才剛剛開始。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.