![]()
新智元報道
編輯:元宇
【新智元導讀】Google DeepMind發布實驗原型「AI-enabled pointer」,鍵盤、鼠標、觸屏之后,下一代交互正在成形。
那個陪了你50年、從未改變過的鼠標指針,要長出大腦了。
自1970年代誕生以來,鼠標指針幾乎沒有進化過。它出現在每一個網站、每一份文檔、每一套工作流程里,卻從未真正理解過你在做什么。
近日,Google DeepMind發布研究博客,展示由Gemini驅動的實驗性原型「AI-enabled pointer」,并在Google AI Studio開放兩個實驗Demo。
![]()
負責這個項目的研究員Adrien Baranes和Rob Marchant在官方博客里寫道:「我們正在開發更無縫、更直觀的與AI協作的方式。」
![]()
https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com
DeepMind CEO Demis Hassabis更是親自發帖,稱這次體驗「相當神奇」。
![]()
鼠標的圖標沒變,但箭頭背后的邏輯變了:不再只知道你指向哪里,而是開始理解你想干什么。
目前,這個原型已經可以在Google AI Studio中體驗,已開放兩個Demo:編輯圖片(AI-Pointer: Create)和地圖找地點(AI-Pointer: Find)。
![]()
「AI-Pointer: Create」入口:https://aistudio.google.com/apps/bundled/ai-pointer-create
DeepMind官方視頻:鼠標指針,一個被遺忘的東西。
AI應該來找你,而不是你去找AI
你每天浪費多少時間在「解釋上下文」?
想一下這個你每天都在重復做的場景:
打開ChatGPT或者Gemini等AI工具的對話窗口;切回你正在看的網頁或文檔,選中那段你想分析的內容,復制;切回AI窗口,粘貼。再用一兩句話解釋你要什么。等待。拿到結果;再切回去執行……
每一次「切窗口→復制→解釋→等待→切回來」,都是一次認知中斷。
你在AI那里花的大量時間,其實并沒有用在真正的問題上,而是用在了「告訴AI你在看什么」。
DeepMind對于這個問題看得很準:
通常,AI工具住在自己的窗口里,用戶需要把自己的世界拖進去。我們想要的恰恰相反:AI應該來找你,而不是你去找AI。
這句話,點透了過去兩年AI交互模式最核心的結構性缺陷。
不用提示詞
指著說AI就懂
AI-enabled pointer要解決的,正是這類摩擦。Adrien認為這個項目的核心命題只有一個:
如何構建一個能真正理解流動用戶意圖的系統。
這背后有四個設計原則,是這套系統的骨架,共同回答一個問題:怎么讓AI讀懂你的意圖,而不需要你花力氣解釋。
第一個原則叫「Maintain the flow」,保持流暢。
按DeepMind的設計目標,AI能力不應把用戶帶離當前應用,而應盡可能出現在用戶正在工作的上下文中。指著一份PDF說「給我一個摘要,直接可以粘進郵件的那種」,AI完成,你繼續。
第二個原則叫「Show and tell」,指給它看。現在用AI,你需要寫一段詳細的提示詞,描述你要處理的內容是什么、長什么樣、上下文是什么。
AI-enabled pointer把這一步省掉了。光標懸停在哪里,Gemini就捕獲那里的視覺信息和語義上下文。你不需要描述你看到的東西,因為AI已經看到了。
第三個原則,是DeepMind最喜歡強調的一個:「Embrace the power of This and That」,擁抱「這個」和「那個」的力量。
想想人和人之間怎么協作。你不會跟同事說「請將第三行第二列的數值乘以二并更新到對應的匯總表格里」。你會說「這個數字,改成兩倍,更新到那里」,然后用手指一指。
AI-enabled pointer要讓人機協作變得像人與人協作一樣自然。技術實現上,可以理解為,系統不再只解析語音里的文字,而是把「this」「that」「here」「there」這類指代詞,與光標或手勢所指向的視覺和語義上下文關聯起來。
所以,當用戶說「把這個便簽改成橙色」時,「這個」不再只是一個模糊代詞,而會被系統結合當前指向的位置、對象和上下文來理解。Gemini拿到的也不只是字面上的一句話,而是由語音、指向和屏幕內容共同構成的意圖。
提示詞的本質一直都不是文字,而是意圖。現在,意圖終于可以用最短的方式傳達了。
更有意思的是,「指向」并非只有鼠標一種方式。演示里,Adrien用的是頭部追蹤:頭轉向哪里,AI注意力就跟到哪里。語音、文字、圖像理解,全部同時在線。
第四個原則最有技術含量:「Turn pixels into actionable entities」,讓像素變成可操作的實體。
過去50年,光標只知道你指的是哪里,卻看不懂你指的是什么,AI-enabled pointer要改變這件事。
你懸停的那張圖里有一棟建筑,AI識別出「這是一個地點」,于是「給我導航」成了一個可以直接觸發的操作;
你拍下一張手寫便條,AI看懂了上面的字,便條自動變成了一份可編輯的待辦清單;
你在旅游視頻里暫停了一幀,畫面里那家看起來不錯的餐廳,直接可以彈出訂位鏈接。
演示里還有一個細節讓人印象很深:Adrien指著一份餐廳菜單,再指著另一張風格參考圖,說「用這張圖的風格,幫我把這份菜單畫出來」。
Gemini同時讀懂了菜單的內容和參考圖的視覺風格,生成了一張融合兩者的新圖。這不是兩步操作,是一句話、兩個手勢,完成的事。
像素第一次有了語義。
從概念到落地
DeepMind并沒有停在概念層面。
Google表示,相關交互原則已開始進入產品:在Chrome中,用戶可以用指針指向/選擇網頁中的內容,并向Gemini提問。
Googlebook上的Magic Pointer已被Google列為即將推出的系統級能力,首批Googlebook設備計劃于今年秋季上市。
當然,從演示到日常可用,還有一段路要走。
識別準確率、跨應用兼容性、響應速度,都需要在真實的復雜桌面環境里經歷打磨。
還有一個問題值得認真對待:AI-enabled pointer需要持續理解你的屏幕內容,數據如何采集、如何存儲、流向哪里,DeepMind目前尚未詳細說明。
這些并非障礙,而是一項新交互范式從實驗室走向大眾必須經歷的過程。
每一項改變交互方式的技術,都經歷過這個階段。觸屏手機在第一代iPhone發布時,也沒有人敢保證它能取代鍵盤。
鍵盤1973,鼠標1984,觸屏2007
下一代交互在2026
把這只指針放回50年人機交互史的時間線上,它的意義會變得很清楚。
1973年,Xerox Alto把圖形界面、位圖顯示和鼠標等現代桌面交互雛形帶入實驗系統。
1984年,Macintosh讓鼠標與圖形界面進入大眾視野,人開始用「指」圖標完成操作。
2007年,iPhone讓手指直接成為主要輸入方式,觸屏成為移動計算的核心交互。
每一次躍遷,背后都是同一件事:機器學會了更多,人需要學的就變少了。
2022年之后的提示詞框是另一條線。
人把意圖翻譯成自然語言,遞給一個對話框,再等機器返回答案。表達帶寬變寬了,但表達環節本身沒消失。你還是要打字、描述。
2026年這只指針,試圖壓縮的是「解釋上下文」這一步,而不是完全消滅表達本身。
2026年這只指針,試圖壓縮的是「解釋上下文」這一步。
手勢+語音+語義理解同時到位,意圖的傳達方式從「精確描述」變成了「自然指向」:人還是要表達,只是再也不用費力解釋「我在看什么」了。
![]()
前四代交互都是「人主動表達」。這一代第一次是「機器主動理解」。手勢+語音+語義理解同時到位,意圖的傳達方式從「精確描述」變成了「自然指向」。提示詞工程在這個范式中幾乎不再存在。
Adrien在視頻結尾描述了他想象中的未來:
一種新型操作系統。AI主動呈現我可能感興趣的內容,我用指向回應它,我們共享注意力,共享畫布,就像和另一個人一起工作。
AI交互的終點,并非一個更聰明的搜索框,而是一個真正能和你協作的伙伴。
最好用的工具,往往是你忘記它存在的那種。
鼠標陪了人類50年。下一個50年,它或許會真正開始理解你。
參考資料:
https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com
https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&fullscreenApplet=true&showAssistant=true
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.