![]()
“回頭看,我們應該更早聚焦代碼,這點我不否認”。谷歌聯合創始人謝爾蓋·布林(Sergey Brin)說道。
這是他回歸谷歌兩年后首次公開亮相,在這場硅谷 AGI House 活動上,他接受了一輪開放式問答。他談到了競爭格局、AGI(通用人工智能)的定義、谷歌正在押注的技術路線,以及他自己也沒有答案的幾個問題。
如果你把整場問答所有信息拼湊起來,會發現它不僅反映了谷歌的現狀,更是整個 AI 行業的截面。在這個截面里,一場 AGI 定義之爭正在悄然發生,而這個爭議的結果將直接決定 AGI 下一步走向。
![]()
(來源:https://www.youtube.com/watch?v=gsv5o8ANdDo)
問答接近尾聲時,有人問布林對當前競爭格局的看法。
"大家都專注于代碼編程,其他實驗室在該領域已經取得了顯著的進步。現在 GPT-5.5 占很大優勢,不過 Gemini 3.5 Flash 在速度上仍具備明顯優勢。"布林回答道,"我們應該更早聚焦代碼,這是我們現在正在做的事。"
為什么代碼之爭如此關鍵?
表面上看,代碼能力強的模型更容易獲得開發者青睞,進而積累更多的用戶反饋,形成產品層面的正循環。但布林指出,更深層的邏輯遠不止于此。
他提到,Gemini 目前大量精力投入在"用工具構建工具"上,即讓 AI 監控自己的訓練過程,生成自身的訓練數據。這意味著,當一個模型的代碼能力足夠強時,它就能寫出更好的訓練腳本,用以訓練更強的下一代模型,而更強的模型又能寫出更好的腳本……這是一個自我加速的正反饋飛輪。代碼能力越強,自我改進越快。這才是代碼之爭的本質。
布林說"我們進入得偏晚",說的正是這個飛輪,谷歌在搶占這個自我加速入口上確實慢了一步。
但入場券只是開始。更根本的問題是,這場競爭的終點究竟在哪里?這取決于 AGI 如何被定義。
布林在問答中提到了兩種截然不同的定義。第一種認為,AGI 是 AI 能夠真正自我提升的那個節點。用這個標準衡量,當前的大模型已經非常接近,甚至某種程度上已經達到。第二種則認為,AGI 意味著 AI 能做任何人類能做的事。布林表示,盡管他之前的直覺認為第一種是正確的,但現在他傾向于認為后者的定義更正確。
這兩個定義代表著完全不同的終點,也對應著完全不同的技術路線。
如果終點是“能做任何人類能做的事”,那么今天的 AI 距離 AGI 仍有結構性距離。不是參數調不到位,而是整個能力模塊的缺失:理解物理世界、與物理世界交互、以及在沒有文字描述的場景里做判斷。
這個判斷,直接決定了谷歌下注的方向。
谷歌在賭什么:從語言到物理世界
布林對 AGI 定義的傾向,也是谷歌技術路線的底層邏輯:光做好語言不夠,必須覆蓋到物理世界。
當前大多數頂尖 AI 的核心架構是 Transformer,這是一種通過大量數據訓練、擅長處理序列信息(文字、代碼等)的神經網絡結構。它的強項是語言理解,與物理世界脫節,因為它無法感知物理空間。它所學的知識全部來源于我們寫下的文字,而這些描述性的文字是無法提供與物理世界交互的感受的。
那么,這樣的邊界該如何被突破?
布林提到,谷歌的多模態模型 Gemini,以及專門處理圖像和視頻的 Omni 模型,訓練方式其實并無本質差異,即使用同一套 Transformer 架構和同樣的訓練流程,只是同時輸入了文本、圖像、視頻。令人驚訝的是,語言理解能力和視覺理解能力在訓練過程中自然地收斂對齊了。這便是涌現(emergence):能力不是被設計出來的,是自己冒出來的,是隨著規模擴大自然而然出現的。涌現在 AI 史上確實發生過,比如,沒有人明確訓練 GPT-3 做算術,但它會。
視頻是目前物理世界最密集的記錄媒介之一,包含足夠多的物理規律和巨大的信息量供模型學習。因此,谷歌的賭注是:如果模型學會預測視頻中下一幀會發生什么,物理直覺也許能夠自然涌現,就像語言涌現了算術,圖像訓練涌現了幾何理解一樣。
這正是 World Model(世界模型)進入谷歌核心戰略的原因。世界模型是一類專門為理解和預測物理環境而設計的 AI 系統,它嘗試在內部建立一個物理世界的仿真器以理解物體如何運動、力如何傳導、動作會帶來什么后果。
當前 AI 的核心缺口正是對真實世界的情境理解,谷歌 DeepMind 于 2025 年發布的 Genie 3,正是這一方向的具體落地:它能根據文字指令實時生成可交互的三維世界,并訓練 AI 智能體在其中行動。與此同時,Gemini Robotics 系列模型則將這套能力延伸到了真實物理空間,讓機器人能夠在沒有精確指令的情況下,自主規劃并完成復雜的多步驟任務。
而這,正是谷歌整條 ASI(超級智能)路線的核心攻堅方向。ASI 是 AGI 之后的下一個階段,如果說 AGI 是"能做任何人類能做的事",那么 ASI 是"在幾乎所有認知任務上全面超越人類"。ASI 不僅僅是執行,還能提出人類從未想到的問題、發現人類看不見的規律。谷歌現在所做的一切,都是在為這個目標鋪路。
這條邏輯鏈,在歷史上有充分的先例支持。但它的成立,依賴一個沒有人能在理論上證明的根本假設:預測,等于理解嗎?
預測和理解之間的差距
1980 年,哲學家約翰·塞爾提出了“中文房間”思想實驗:一個不懂中文的人被關在房間里,手持一本超厚的規則手冊,規定了“收到這串符號就輸出那串符號”。外面的人認為房間里有人懂中文,但房間里的人根本不知道自己在說什么。完美的輸入輸出匹配,不等于理解。
把房間里的人換成語言模型,把規則手冊換成訓練權重,就是現在 AI 的場景。所謂預測,是模型看過一千個視頻后,學會了玻璃杯從桌子掉下去,下一幀該是碎片。而真正的理解,是知道這背后的原因,比如:重力加速度、材料脆性、動能轉化,從而能推斷出,當同樣的杯子在月球上落下時,碎片散落的方式會不同。
預測是記住了結果。理解是掌握了規律,能遷移到沒見過的場景。谷歌的假設便是當預測做到極致時,會自動轉化成理解。
圖靈獎得主、前 Meta 首席 AI 科學家楊立昆(Yann Lecun)是這個假設最堅定的反對者。他的核心論點是:語言和視頻描述的是世界的投影,而并非世界本身。因為一個讀遍了所有描述游泳文字卻沒有實踐的人,是不會游泳的。物理交互所需要的因果理解是超越書本上的統計學習的,這是當前 AI 領域的前沿分歧,也是布林的押注面臨的最大風險。
預測與理解的鴻溝是谷歌押注面臨的外部質疑,但內部還潛藏著另一個風險。布林提到的“用工具構建工具”,即讓 AI 生成自身訓練數據,有可能導致 Model Collapse(模型坍縮)。
當 AI 生成的數據被用來訓練下一代 AI,再用那一代 AI 生成數據訓練再下一代,這個循環里,每一輪都會有信息損失。就像復印再復印,圖像會越來越模糊。模型可能在某些維度越來越強,但在另一些維度悄悄退化,而且很難從外部察覺。
![]()
(來源:AI 生成)
盡管布林的表述里沒有提到這個風險,但它會是未來幾年驗證自我改進飛輪這條路線是否可行的關鍵指標之一。
縱觀整場問答,布林的回答中帶著很多不確定性,“猜測”“感覺”“可能”等模糊字眼反復出現,這正是這個領域的真實寫照:發展之迅猛,讓我們永遠無法準確預測下一步。沒有人知道預測是否能轉化為理解,沒有人知道涌現的邊界在哪里,沒有人知道自我改進飛輪會在哪里斷裂,也沒有人知道 Model Collapse 會在什么規模上變得不可控。
這場問答的價值,不在于布林給出了什么答案,而在于他展示了哪些問題還沒有答案。而那些問題,才是接下來幾年真正值得押注的地方。
參考資料:
https://www.youtube.com/watch?v=gsv5o8ANdDo
運營/排版:何晨龍
注:封面/首圖由 AI 輔助生成
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.