網易首頁 > 網易號 > 正文申請入駐

大模型狂熱兩年后，vivo 決定幫 AI 走出“暗室”

2026-03-27 20:42:42　來源: 劃重點KeyPoints

浙江舉報

分享至

作者｜何晴

編輯｜重點君

在全民養蝦的今天，看似無所不能的AI卻存在一個“根本性缺陷”。

楊立昆等三位學者在2026年3月剛剛發表的聯合論文中指出，當前AI缺乏與環境的真實交互，過度依賴語言訓練，讓AI忽視了空間感知、具身認知以及對物理世界的推理。換句話說，AI被困在數據的黑屋子里。它能解答拋向它的問題，卻無法從真實世界中學習。

這個困局在2026年1月的CES上被正式“命名”。黃仁勛在演講中17次提及一個詞——“物理AI”（Physical AI），意指讓攝像頭、機器人和自動駕駛汽車等自主系統能夠在物理世界中完成感知、理解、推理，并執行復雜操作。他形容這是AI的又一個“ChatGPT時刻”。

一個月后，博鰲亞洲論壇，vivo總裁胡柏山給出了一個更落地的答案：給AI裝眼睛。他認為，AI要從虛擬世界走進現實，必須建立自己的感知體系，而感知的基礎，是影像。搭載著攝像頭的手機，正是AI落地的“第一現場”。

這不是技術路線之爭，而是一個根本追問：AI要真正改變物理世界，它缺的到底是什么？

vivo在這條路上的探索，已在即將發布的X300 Ultra與X300s上初現輪廓。2026年3月，vivo于MWC上發布了行業首個端側實時相機AI Agent。用戶無需再進行繁瑣的攝影調參步驟，手機可自動識別場景、優化參數、推薦構圖，甚至預判拍攝對象的運動軌跡。

事實上，當AI火到下半場，AI的“大腦”越來越強大，我們對它的期待是否可以再進一步？不是讓它更會思考，而是讓它真正“看見”。畢竟，AI要真正改變物理世界，缺的不是大腦，是一雙“眼睛”。

AI的“暗室困境”

如果復盤過去兩年AI的發展路徑，可以看到一個明顯的偏向：行業在集中“造大腦”。模型越來越強，但問題也越來越明顯。

今天的大模型，本質上是對歷史數據的高度壓縮與重組。它們可以生成內容、給出決策建議，但這些能力的前提，是“已有知識”。一旦進入實時、動態、不可預知的物理世界，問題就出現了，AI無法實時感知環境，無法驗證用戶輸入的信息，也無法建立連續的空間理解。舉個例子，AI能寫詩、能編程、能通過律師資格考試，但無法準確描述你面前這杯咖啡的溫度，也無法理解一只貓從桌上跳下來時的身體協調邏輯。

胡柏山在博鰲給出了一個形象的比喻：“沒有感知能力，AI是困在黑屋子里的‘大師’，算力再強，也看不見咫尺之外的世界。”

于是，一個行業性的“暗室困境”浮出水面：當所有人都在卷大模型參數、卷云端算力時，AI其實還缺一雙真正的“眼睛”。

這也是為何AI狂熱時代下，vivo依然在影像上押重注。模型能力最終會被拉平，誰能讓AI更好地感知物理世界，誰就能在AI下半場占據先機。

當手機通過全焦段4K 120fps視頻錄制、端側實時相機AI Agent，把物理世界轉化為AI可以理解的數字信號時，它就不再是簡單的記錄工具，而是能主動感知、理解、行動的“數字伙伴。這是從Smart Phone到Agent Phone的第一步。這也是vivo在AI時代交出的自己的答卷。

而vivo敢做這個“反常”選擇的原因，正是因為它有一套獨屬于自己的產品哲學——不追逐風口，而是回歸用戶真實可感知的價值。

vivo的不為哲學

如果將vivo的戰略表述置于更長的時間維度去觀察，便能窺見其獨有的戰略定力——擇其不為，進而有為。在行業這場AI狂歡中，vivo始終保持著清醒與冷靜。

單從技術趨勢看，vivo沒有第一時間All in通用大模型，甚至在一些熱門賽道上主動踩剎車。

但如果換一個視角——從用戶出發，這條路徑反而變得清晰。

在采訪中，胡柏山反復強調一個判斷：“用戶要的不是功能，而是體驗。”這句話看似簡單，卻決定了vivo在AI時代的幾乎所有戰略取舍。

2026年1月，vivo叫停了籌備近半年的AI眼鏡項目的消息引發行業熱議。胡柏山在受訪時道出了背后的思考：“第一，這個品類能否做出差異化？如果沒有差異化，很快就會陷入同質化，最終淪為價格戰。第二，這個東西對用戶而言是否足夠剛需？AI眼鏡或許能在部分細分場景里能滿足剛需，但對絕大多數用戶來說并非必需。第三，我們做產品，不想只做一個60分，必須要做到80分以上。”

這不是vivo首次在風口面前選擇“不為”。不盲目去追逐OpenClaw，也不刻意追求大參數模型的比拼，vivo始終有著自己的一套AI戰略邏輯。

而這套邏輯的底層，是vivo一以貫之的“用戶導向”——所有戰略取舍的出發點，從來不是技術能否實現，而是用戶能否真實感知到產品的價值。正如vivo創始人沈煒在2026年新年致辭中所言：“意識不等于能力，共識不等于結果。”vivo要把用戶導向從意識上的重視，轉化為可復用、可沉淀的系統化洞察與認知體系。

因此，當行業深陷大模型參數軍備競賽，陷入概念炒作與風口追逐的漩渦時，vivo選擇將核心資源聚焦在一個關鍵命題上：如何讓手機更好地感知物理世界，從而更懂用戶？而非為博取市場噱頭而盲目入局。

于是，我們可以看到的是，vivo將資源聚焦在了感知能力賽道，讓手機這個最貼近用戶的設備，長出感知物理世界的“眼睛”。在影像技術領域，vivo已經深耕多年。從傳感器、光學系統到影像芯片與算法協同，影像能力早已被vivo拆解為一整套系統工程。自研藍圖傳感技術、藍圖算法矩陣及藍圖影像芯片，vivo在硬件與算法的協同上形成了獨特的護城河。這種能力，正是其在AI時代構建感知體系的技術底座。

2026年，vivo在博鰲正式宣布成立“感知”賽道，融合視覺、聽覺、觸覺等多模態能力，通過傳感器與感知大模型，把物理世界的各類信息轉化為機器能讀懂的數字信號。在胡柏山看來，這正是最關鍵的差異化所在：“未來大模型之間的差異不會太大，真正決定智能體體驗好壞的，關鍵就是場景數據，這是無法替代的。”

AI領域，vivo的布局也遠比外界想象的要早。胡柏山在博鰲演講中透露：“我們AI團隊已經建立有10年了，在這個方向上的投入決心是比較大的。”這約1000人的AI團隊分布在vivo全球多個研發中心，其中杭州算法研究信息中心是vivo影像算法的核心基地，新建立的vivo杭州研發中心也將于明年將投入使用。

而在這個充滿FOMO情緒的時代，vivo用“不做什么”劃定了自己的邊界，也找到了穿越周期的確定性。

AI時代的“眼睛之戰”

如今，“物理AI”的浪潮正在加速。

根據Acumen Research and Consulting發布的報告，全球Physical AI市場預計于2026年達64.4億美元，2035年將增長至827.9億美元，年復合增長率高達32.8%。報告指出，計算機視覺是該市場中規模最大、增長最快的技術領域。

vivo的布局正與這一趨勢同步。胡柏山在博鰲透露的vivo的布局，也比手機更遠。

在vivo內部，“感知能力”被定義為一級技術賽道。它不僅服務手機，更指向一個更遠的目標，即物理世界的智能化接口。這條路徑可以分為三層：手機是最便捷、場景最密集的入口，空間設備（MR）能夠訓練空間理解能力，機器人則能進入真實的物理世界操作。

為了實現物理AI的目標，一部分公司從云端模型出發，向下延伸，另一部分，從機器人具身能力出發，向上補智能。

而vivo選擇從“感知”切入，向兩端延展。

2025年3月，vivo正式宣布成立機器人Lab，首次披露進軍家庭機器人領域的戰略規劃。而vivo專注于研發家庭機器人的“大腦”（AI決策系統）和“眼睛”（空間感知與視覺系統）。這種漸進式推進，不追求一步到位的戰略，被胡柏山稱之為“沿途下蛋”策略。這也是vivo用戶導向思路的延伸。

在博鰲演講的結尾，胡柏山講了兩個故事。一個是失明的寶哥，帶著導盲犬和vivo手機環游中國，“vivo看見”幫他記住了每個人的樣子；另一個是諾子，在冰島的冰河湖旁，手機AI為她講述眼前的景象：湖面漂浮著冰塊，游客在拍照，遠處有海鳥飛過。

這兩個例子不僅讓我們看到技術可以有溫度，也讓我們意識到，AI開始介入“人的感知”。

當影像記錄記憶，AI學習習慣，兩者融合后，這種感知能力從手機延伸至頭顯、機器人，構建“視覺+大腦”的生態平臺，最終每個人擁有可傳承的“數字DNA”。這意味著，智能設備不僅可以理解人的行為，還能理解行為背后的偏好、情緒與關系，并持續積累、遷移、進化，這可能正是Agent Phone的終局形態。不是一個更聰明的工具，而是一個“持續理解你”的系統。

胡柏山在采訪最后說了一句話：“科技的高度，終須回歸人的尺度。”

vivo選擇用影像這雙“眼睛”，替人類去看見、去理解、去改變這個物理世界。這種路徑可能不夠快，但足夠扎實——因為它始終圍繞著用戶真實可感知的價值。

在這個AI狂飆突進的時代，這句話或許是對當下FOMO情緒最好的提醒。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.