![]()
作者 | 陸
郵箱 | xiaoyu@pingwest.com
在博鰲亞洲論壇舉辦前夕,OpenClaw 引發(fā)了一場(chǎng)全球養(yǎng)蝦狂歡,AI 在屏幕那端自主執(zhí)行指令的畫面,讓不少人在此前沒有接觸過 AI 的用戶認(rèn)為科幻照進(jìn)了現(xiàn)實(shí)。
在這個(gè)背景下,vivo 總裁、首席運(yùn)營(yíng)官兼中央研究院院長(zhǎng)胡柏山提出了一個(gè)不太一樣的問題:AI 現(xiàn)在能干很多事,但它對(duì)真實(shí)世界的感知,幾乎為零。他在演講里用了一個(gè)比喻:“沒有感知能力,AI 就像是困在黑屋子里的大師,算力再?gòu)?qiáng),也看不見咫尺之外的世界。”
![]()
vivo 總裁、首席運(yùn)營(yíng)官兼中央研究院院長(zhǎng)胡柏山 圖源:vivo
這句話是這次博鰲 vivo 傳遞的核心信號(hào)的起點(diǎn),也是理解 vivo 接下來所有動(dòng)作的前提。
1
演唱會(huì)神器、旅拍神器——但這只是開始
在很長(zhǎng)一段時(shí)間里,vivo 給外界留下的強(qiáng)烈印象有幾個(gè)關(guān)鍵場(chǎng)景:在演唱會(huì)上配合增距鏡輕松拍到臺(tái)上歌手清晰的表情;旅行途中的隨手拍,顏色和光影都舒服得像膠片。這些標(biāo)簽不是沒有道理,vivo 在影像上耕耘了很多年,這是真實(shí)的產(chǎn)品積累換來的口碑。
但在本屆博鰲論壇期間,胡柏山聊的東西,已經(jīng)超越了“出片好不好”的范疇。
他在演講里放了兩個(gè)故事。
一個(gè)是寶哥,九年前意外失明,去年帶著導(dǎo)盲犬阿爾法,靠一臺(tái) vivo 手機(jī)環(huán)游中國(guó)。vivo 的 AI 功能幫他“看見”了每一個(gè)人的樣子。在南澳的漁船上,手機(jī)告訴他:“面前是你的朋友章喜德,他雙臂交叉,面帶微笑,穿著一件深色長(zhǎng)袖。”
另一個(gè)是諾子,因視覺神經(jīng)損傷失明的美院學(xué)生,最大的愿望是去冰島感受世界的盡頭。去年她如愿了,站在冰河湖旁,手機(jī)幫她描述:“湖面漂浮著冰塊,游客在拍照,遠(yuǎn)處有海鳥飛過。”
如果這兩個(gè)故事放在發(fā)布會(huì) PPT 里,很容易被當(dāng)成情感包裝。但放在胡柏山對(duì)影像的整體判斷里,它們指向的是同一件事:影像技術(shù)真正的上限,不是把照片拍得更好看,而是讓機(jī)器能夠真正“讀懂”它所看到的物理世界。
這種落差本身就是個(gè)有意思的信號(hào):一家長(zhǎng)期憑“影像手機(jī)”圈粉的公司,現(xiàn)在想用“影像”講一個(gè)完全不同的故事。
1
AI 有一個(gè)沒人愿意承認(rèn)的短板
過去這兩年,AI 的進(jìn)展快得有點(diǎn)讓人應(yīng)接不暇。寫作、代碼、繪圖、視頻,一個(gè)接一個(gè)地被攻克,而最近爆火的“龍蝦”甚至可以接管你的電腦幫你完成一些復(fù)雜繁瑣的工作,于是用戶慢慢形成了一種印象:AI 好像什么都會(huì)了。
但有一件事,目前的 AI 其實(shí)做得很差:那就是感知真實(shí)世界。
不是“看不見”,現(xiàn)在的大模型基本都有視覺能力,你把一張照片發(fā)給它,它能告訴你圖里有什么。但“讀懂一張圖”和“感知物理世界”之間,差著一個(gè)本質(zhì)的臺(tái)階。前者是被動(dòng)接收,后者是主動(dòng)理解——理解光線、空間、位置關(guān)系,甚至理解一個(gè)人當(dāng)下的狀態(tài)和情緒。
用胡柏山的說法來理解這個(gè)差距,會(huì)更直白一些:當(dāng)今的 AI 是“數(shù)字世界里的大師”,它在那個(gè)世界里能創(chuàng)作、能推理、能給人提建議。但它沒有辦法直接作用于物理世界,更沒有辦法改變它。它就像一個(gè)博覽群書、足不出戶的人——知識(shí)量驚人,但沒有真正“出過門”。
這個(gè)短板,目前沒有哪家公司完全解決了。但它是一道必須過的關(guān):如果 AI 永遠(yuǎn)只活在屏幕里,所謂的“通用人工智能”就始終是一句空話。
讓 AI 真正走進(jìn)物理世界,需要一套感知系統(tǒng)。而感知系統(tǒng)的核心,是影像。
1
影像在做的事,不單單“記錄”,更是“感知”
在會(huì)上,胡柏山提到了一件內(nèi)部的事:vivo 今年正式成立了一個(gè)新的一條“長(zhǎng)技術(shù)賽道”:感知賽道。
![]()
vivo 總裁、首席運(yùn)營(yíng)官兼中央研究院院長(zhǎng)胡柏山 圖源:vivo
這個(gè)措辭值得停留一下。在 vivo 的內(nèi)部語(yǔ)言里,“長(zhǎng)賽道”往往意味著天花板足夠高、值得持續(xù)十年投入的方向。比如影像就是一條已經(jīng)被驗(yàn)證的長(zhǎng)賽道。現(xiàn)在感知被提升到同等級(jí)別,說明 vivo 的判斷是:這條路至少要走十年,而且它的意義不止于手機(jī)。
影像技術(shù)在過去幾年里一直是手機(jī)廠商的核心戰(zhàn)場(chǎng),但幾乎所有人的敘事框架都停在同一個(gè)層面:主攝傳感器更大、進(jìn)光量更多、長(zhǎng)焦對(duì)焦更快速、夜景更亮。這些進(jìn)步是真實(shí)的,只是它們的目的地一直是“拍出更好的照片”。
vivo 現(xiàn)在想改變的,是這個(gè)目的地本身。
感知系統(tǒng)做的事情不是“拍下來”,而是“讀明白”:讀懂光影,讀懂空間,讀懂場(chǎng)景里發(fā)生了什么,甚至讀懂人的情緒狀態(tài)。
這件事的重要性在于:這恰好是 AI 走出數(shù)字世界、落地物理世界所缺少的那一環(huán)。圖像感知加上聲音感知,構(gòu)成了 AI 理解物理世界的基本能力。沒有這套感知能力,AI 再聰明,也只是屏幕后面那個(gè)很會(huì)打字的助手。
胡柏山表示:未來模型會(huì)越來越同質(zhì)化,開源的速度越來越快,大家之間的差距越來越小。但感知系統(tǒng)不一樣,因?yàn)樗杉氖钦鎸?shí)物理世界的場(chǎng)景數(shù)據(jù),而每個(gè)品牌的用戶群體不同、使用場(chǎng)景不同,積累下來的場(chǎng)景數(shù)據(jù)就會(huì)不同,這個(gè)差異是不可復(fù)制的。
他舉了特斯拉 FSD 的例子:特斯拉的輔助駕駛模型可以公開,但它的道路數(shù)據(jù)不會(huì)公開。模型有可能被追上,而場(chǎng)景數(shù)據(jù)才是真正的護(hù)城河。
把影像從“記錄工具”升級(jí)為“感知系統(tǒng)”,這也讓 vivo 在影像上的長(zhǎng)期投入,有了一個(gè)新的解釋框架——不只是為了讓照片更好看,而是在為 AI 打地基。
1
手機(jī)下一步變成什么?一個(gè)有記憶、懂你的 Agent
理解了 vivo 為什么把影像當(dāng)成感知的關(guān)鍵能力,再來看 vivo 對(duì)手機(jī)下一階段的判斷,就不會(huì)覺得突兀了。
vivo 的判斷是:手機(jī)從 Smartphone 進(jìn)化為 Agent Phone,是確定性的趨勢(shì),只是現(xiàn)階段受制于端側(cè)算力和帶寬,進(jìn)展需要一步一步來。
Agent Phone 這個(gè)詞現(xiàn)在很多公司都在說,但大家的理解深淺不一。vivo 對(duì)它的定義,落腳點(diǎn)在“個(gè)性”和“知識(shí)圖譜”這兩件事上——每一個(gè)用戶的 Agent,應(yīng)該是專屬的,而不是把同一個(gè)基準(zhǔn)模板套在所有用戶身上。
這不是一個(gè)新鮮的理想,但實(shí)現(xiàn)路徑有講究。vivo 的方式是從影像入手:第一批是相機(jī) Agent 和相冊(cè) Agent。拍照的時(shí)候用,整理照片的時(shí)候用,它不需要一直在后臺(tái)持續(xù)運(yùn)行,所以對(duì)硬件的壓力在可控范圍內(nèi)。
相機(jī) Agent 在 X300s 和 X300 Ultra 上已經(jīng)有了初步落地。具體來說,過去用戶拍照需要手動(dòng)切換人像模式、長(zhǎng)焦模式、微距模式,大部分人其實(shí)并不知道什么時(shí)候該用哪個(gè)。現(xiàn)在相機(jī)會(huì)根據(jù)拍攝對(duì)象的光線、距離、類型,自動(dòng)識(shí)別場(chǎng)景,彈出它認(rèn)為最合適的成像建議。
這更像是一個(gè)起點(diǎn)的聲明,而不是終點(diǎn)的交付。
往后看,vivo 的規(guī)劃里還有更多種類的 Agent:無論是辦公的、出行的、游戲的,其實(shí)邏輯都一樣——通過模型把過去需要用戶手動(dòng)設(shè)置或者根本做不到的事情,交給手機(jī)自動(dòng)完成。
不過 vivo 對(duì)這個(gè)階段的預(yù)期是克制的。胡柏山認(rèn)為:2026 年能做好的,就是這些對(duì)算力要求相對(duì)可控的 Agent,真正做到對(duì)周邊環(huán)境實(shí)時(shí)感知的能力,需要系統(tǒng)架構(gòu)做更大的調(diào)整,這是 2026 年之后的事。
Agent Phone 是短期路徑,是把手機(jī)從工具升級(jí)成“伙伴”的第一步。
1
長(zhǎng)期的答案:影像 × AI,升級(jí)為感知中樞
vivo 這兩年推出或者宣布的新方向不少:去年我們見到了 vivo Vision MR 頭顯的發(fā)布,傳說中用來“對(duì)抗”大疆 Pocket 的云臺(tái)相機(jī)也有望在今年底到來,而具身機(jī)器人實(shí)驗(yàn)室也已經(jīng)成立。vivo 的這些動(dòng)作,讓外界有一種很自然的疑問:這家公司是不是攤子鋪得太大了?
胡柏山對(duì)這個(gè)問題的回答,分了三個(gè)層次:記錄世界、感知世界、改變世界。
“記錄是被動(dòng)的,它等待你的指令;感知是主動(dòng)的,它替你觀察環(huán)境的亮度、空間的縱深,甚至人際的距離;行動(dòng)則是終極的,它基于理解,替你解決問題。”
現(xiàn)在的手機(jī)大部分還在“記錄”階段,往“感知”升級(jí)是近期的方向,而“行動(dòng)”才能真正自主地作用于物理世界,這是 vivo 押注的遠(yuǎn)期目標(biāo)。
為了走到那一步,vivo 的規(guī)劃是以手機(jī)為起點(diǎn),向外延伸出一整套以影像感知為核心的設(shè)備生態(tài):手機(jī)作為感知源頭和個(gè)人化數(shù)據(jù)的積累中心;vivo Vision MR 頭顯作為空間計(jì)算的訓(xùn)練場(chǎng),理解空間結(jié)構(gòu)和幾何關(guān)系;云臺(tái)相機(jī)、穿戴設(shè)備等生態(tài)終端作為移動(dòng)觸角;家庭機(jī)器人作為感知能力的最終落點(diǎn):讓 AI 真正進(jìn)入物理世界,進(jìn)入家里。
![]()
圖源:vivo
去年 8 月,vivo 發(fā)布了 vivo Vision 探索版 MR 頭顯,已經(jīng)在國(guó)內(nèi) 20 多家體驗(yàn)店和東南亞部分市場(chǎng)落地,用戶體驗(yàn)超過 5 萬人。這款產(chǎn)品的定位是“探索”,有了實(shí)體載體,才能真正積累數(shù)據(jù),驗(yàn)證認(rèn)知。
胡柏山表示:vivo Vision 下一代要推進(jìn)商業(yè)化,目標(biāo)是 2027 年底或 2028 年初正式商用。
機(jī)器人方向則更早期。
vivo 去年成立了機(jī)器人 Lab,目前仍在實(shí)驗(yàn)室階段,沒有原型機(jī),沒有發(fā)布時(shí)間表。但胡柏山對(duì)這件事的思路很清晰:不做“全場(chǎng)景通用機(jī)器人”,而是聚焦年輕用戶的生活場(chǎng)景,從單一高可行性的任務(wù)出發(fā):比如寵物喂食,比如衣物收納;先把一個(gè)場(chǎng)景做到能用,再逐步泛化。他用的詞是“沿途下蛋”。
他還專門解釋了手機(jī)和機(jī)器人的關(guān)系:手機(jī)是最了解用戶的隨身助手,知道你的生活習(xí)慣、飲食偏好、寵物信息,并且這些數(shù)據(jù)全部在本地,不上云。
當(dāng)機(jī)器人能力還不夠的階段,用戶可以通過手機(jī)遠(yuǎn)程查看、遙控操作;隨著數(shù)據(jù)積累,機(jī)器人會(huì)越來越自主。這個(gè)路徑和自動(dòng)駕駛的演進(jìn)邏輯一樣——從輔助執(zhí)行到自主決策。
這套邏輯說通了之后,再看 vivo 的產(chǎn)品布局,會(huì)發(fā)現(xiàn)它比看起來要更有結(jié)構(gòu):影像技術(shù)是那根主軸,其他產(chǎn)品是主軸延伸出去的不同分支。
1
最后
在這次采訪里,有一個(gè)細(xì)節(jié)讓我印象深刻。
當(dāng)胡柏山被問到:AI 時(shí)代,到底是 AI 唱主角,還是影像唱主角?
他的回答是:在存量市場(chǎng)里,影像是拉長(zhǎng)板的邏輯,繼續(xù)把有高卷入度的用戶留住。但要把存量市場(chǎng)變成增量市場(chǎng),靠的是 Agent,讓換機(jī)周期縮短,讓更多人覺得舊手機(jī)不夠用了。“影像+AI 兩者其實(shí)并不沖突,只要東西好,手機(jī)就能成為生產(chǎn)力工具,用戶就會(huì)覺得值。”
這個(gè)回答里有一種務(wù)實(shí)的底色。
vivo 講的故事很大:感知系統(tǒng)、數(shù)字 DNA、機(jī)器人;但在落到產(chǎn)品層面時(shí)一直很具體:今年做好相機(jī)和相冊(cè) Agent、27 年后 MR 商用,更遠(yuǎn)的是機(jī)器人。
vivo 并沒有喊出“我們要改變世界”的宣言,只是交出了一張分階段的時(shí)間表,這條路究竟能走到哪,最終還是要依靠產(chǎn)品來交卷。
![]()
點(diǎn)個(gè)“愛心”,再走 吧
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.