亚洲中文字幕乱码亚洲-蜜桃成熟视频在线观看-免费中文字幕视频在线-中国五十路熟妇洗澡视频-亚洲av伊人啪啪c-国产精品成人一区二区-国产自拍视频一区在线观看-成人一区不卡二区三区四区-亚洲情精品中文字幕99在线

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Vibe Coding過(guò)時(shí)了?谷歌開始卷Vibe Searching

0
分享至



AI能根據(jù)你的文字生成圖片,也能生成視頻。

可當(dāng)我們?nèi)祟愊胍臇|西是一段畫面、一種氛圍、一個(gè)模糊的印象,機(jī)器就沒(méi)啥辦法了。

你沒(méi)法在搜索框里輸入“那種很孤獨(dú)的感覺(jué)”然后得到一張完美的劇照,也沒(méi)法對(duì)著監(jiān)控系統(tǒng)說(shuō)“幫我找打架的片段”。

文字是文字,圖片是圖片,視頻是視頻,音頻是音頻,它們各自封閉,互不相通。

2026年一季度,當(dāng)其他大模型廠商還在卷agent、卷內(nèi)容生成的時(shí)候,谷歌悄悄發(fā)布了Gemini Embedding 2模型。

它把文本、圖片、視頻、音頻和文檔,全部拉進(jìn)了同一個(gè)語(yǔ)義空間。

這意味著你可以用一句話找到一張圖,用一張圖找到一段視頻,用一段音頻找到一份文檔。

五種模態(tài)之間的壁壘被打通了,機(jī)器第一次擁有了類似人類“通感”的能力。

它不再把世界看成割裂的文件格式,而是像你一樣,把一段旋律、一個(gè)畫面、一句話理解為同一件事的不同表達(dá)。

有網(wǎng)友評(píng)論道:“人工智能不再把世界看得支離破碎,它和你一樣看待它?!?/p>

01

谷歌的戰(zhàn)略深意:不在應(yīng)用層肉搏,而是去定標(biāo)準(zhǔn)

谷歌選擇在這個(gè)時(shí)間點(diǎn)發(fā)布這個(gè)模型可以說(shuō)是耐人尋味。

在OpenClaw狂熱的當(dāng)下,大家都在比誰(shuí)的大腦更聰明,誰(shuí)的手腳更靈活。

而谷歌卻退后一步,去打磨一種更底層的能力——感知力。

要理解這步棋的分量,需要先看清一個(gè)事實(shí)。在Gemini Embedding 2出現(xiàn)之前,多模態(tài)嵌入其實(shí)不是什么新鮮玩意,甚至于可以說(shuō)它有點(diǎn)“土”。



Nomic、Jina、CLIP 的衍生模型都做過(guò)嘗試,但它們要么只覆蓋兩三種模態(tài),要么精度不夠,總結(jié)來(lái)說(shuō)就是能用但不好用。

更關(guān)鍵的是,市面上絕大多數(shù)嵌入模型,本質(zhì)上仍然是“文本優(yōu)先”的。

想搜索一段視頻?先把視頻轉(zhuǎn)錄成文字,再對(duì)文字做嵌入。這個(gè)中間步驟不僅拖慢速度,還不可避免地?fù)p耗語(yǔ)義。

畫面的構(gòu)圖、音樂(lè)的情緒、說(shuō)話人的語(yǔ)氣,這些只存在于原始模態(tài)中的微妙信號(hào),在轉(zhuǎn)錄為文字的那一刻就已經(jīng)不存在了。

Gemini Embedding 2的做法則完全不同。

它原生理解聲波和動(dòng)態(tài)畫面,直接將五種模態(tài)映射到同一個(gè)3072維的語(yǔ)義空間里,不需要任何中間轉(zhuǎn)譯。

法律科技公司Everlaw在使用embedding 2模型處理訴訟發(fā)現(xiàn)(litigation discovery)流程時(shí),跨數(shù)百萬(wàn)條記錄的檢索召回率提升了20%;另一家企業(yè)Sparkonomy則發(fā)現(xiàn),相比此前的多管道方案,延遲降低了70%,語(yǔ)義相似度得分直接翻倍。

聰明的大腦固然重要,但如果這個(gè)大腦看不見、聽不到、摸不著真實(shí)世界里那些紛繁復(fù)雜的多模態(tài)信息,它就像一個(gè)被關(guān)在漆黑房間里的天才,再聰明也無(wú)處施展。
所以谷歌的策略是:與其在上層應(yīng)用上和對(duì)手肉搏,不如直接去修路、定標(biāo)準(zhǔn)。

標(biāo)準(zhǔn)從何定起?前提在于,每一家大模型廠商的嵌入標(biāo)準(zhǔn)是完全不兼容的。

同一張照片,在谷歌的語(yǔ)義空間里坐標(biāo)可能是 (1, 2),到了 OpenAI 的體系里就變成了 (9, 8)。谷歌自己的文檔也明確指出,從上一代gemini-embedding-001升級(jí)到Embedding 2,所有已有數(shù)據(jù)都必須重新嵌入,兩代模型生成的向量之間無(wú)法直接比較。

一旦企業(yè)用了谷歌的模型為積攢多年的圖片、音頻、視頻建立了索引,想要遷移到其他平臺(tái),就意味著把全部數(shù)據(jù)重新投喂、重新計(jì)算。這種耗費(fèi)巨大算力和時(shí)間的索引重建工程,會(huì)讓企業(yè)在不知不覺(jué)中被深度綁定到谷歌的生態(tài)里。

谷歌深諳此道,并且在加速這種綁定。

Embedding 2發(fā)布當(dāng)天就已經(jīng)集成了LangChain、LlamaIndex、Haystack、Weaviate、Qdrant、ChromaDB、Pinecone 等幾乎所有主流AI開發(fā)框架和向量數(shù)據(jù)庫(kù),官方Colab示例代碼以Apache 2.0許可證開源,文本嵌入定價(jià)僅0.20美元/百萬(wàn)token,批量調(diào)用再打五折。

這套動(dòng)作的意圖非常清晰:讓開發(fā)者和企業(yè)以低門檻的方式涌入,等到數(shù)據(jù)沉淀到一定規(guī)模,遷移成本就會(huì)像滾雪球一樣越滾越大。

“我們開發(fā)和利用人工智能潛力的方法根植于我們的創(chuàng)始使命——組織世界信息,使其普遍可訪問(wèn)且實(shí)用?!边@是2023年谷歌官網(wǎng)發(fā)布的《我們?yōu)槭裁搓P(guān)注人工智能以及目的是什么》中的一句話。

從幫助科學(xué)家探索蛋白質(zhì)折疊的 AlphaFold,到針對(duì)數(shù)學(xué)和物理頂級(jí)難題推出的Gemini DeepThink模式,再到這次的跨模態(tài)檢索,谷歌確實(shí)在一步步兌現(xiàn)這個(gè)承諾。

02

一個(gè)里程碑式的技術(shù)突破

Gemini Embedding 2支持超過(guò)100種語(yǔ)言,擁有8192個(gè)token的上下文窗口(大約對(duì)應(yīng)4000到5000個(gè)中文字符),每次請(qǐng)求最多可以處理6張圖片、120秒的視頻以及6頁(yè)的PDF。

在基準(zhǔn)測(cè)試中,它的多語(yǔ)言檢索、代碼檢索和圖文檢索得分全面超越了Amazon Nova 2和Voyage 3.5。



但真正讓這件事具有里程碑意義的,不只是跑分?jǐn)?shù)字,而是它所瞄準(zhǔn)的那片無(wú)人深海。

根據(jù)IDC 2023年的報(bào)告,視頻、音頻、圖片等非結(jié)構(gòu)化數(shù)據(jù)占到了全球數(shù)據(jù)總量的92.9%,即便到2028年,這個(gè)比例預(yù)計(jì)也只會(huì)降到82.3%。



換句話說(shuō),人類產(chǎn)生的絕大多數(shù)信息——會(huì)議錄音、產(chǎn)品視頻、設(shè)計(jì)圖稿、監(jiān)控畫面由于其非結(jié)構(gòu)化特征,長(zhǎng)久沉寂在茫茫的互聯(lián)網(wǎng)世界中無(wú)法被按需打撈,就像一個(gè)個(gè)封閉的黑盒。

以前要對(duì)這些黑盒數(shù)據(jù)進(jìn)行語(yǔ)義比對(duì)、建立索引,主流所采用的是“雙編碼器”架構(gòu),OpenAI的CLIP就是如此。

一個(gè)視覺(jué)編碼器處理圖片,一個(gè)文本編碼器處理文字,兩個(gè)編碼器各自獨(dú)立運(yùn)行,最后再通過(guò)對(duì)比學(xué)習(xí)把它們的輸出對(duì)齊到同一個(gè)空間里。

谷歌Cloud團(tuán)隊(duì)在技術(shù)博客中寫到:因?yàn)閮蓚€(gè)編碼器是分開的,它們只在最后階段才見面,所以錯(cuò)過(guò)了在網(wǎng)絡(luò)中間層形成深層跨模態(tài)連接的機(jī)會(huì)。

就好比兩個(gè)翻譯各自把一本書翻成了不同的語(yǔ)言,然后試圖在目錄層面對(duì)齊。它們的字面意思或許能對(duì)上,但原文中那些微妙的語(yǔ)境、情緒,在這個(gè)過(guò)程中已經(jīng)丟失了。

到了Gemini Embedding 2這里,當(dāng)模型處理一張配有文字說(shuō)明的產(chǎn)品圖時(shí),它不是分別理解圖片和文字再拼接結(jié)果,而是像人類一樣,把視覺(jué)信息和語(yǔ)言信息當(dāng)作一個(gè)整體來(lái)感知。

這也造就了檢索的一種新玩法:交錯(cuò)輸入(interleaved input)。

開發(fā)者可以在一次API調(diào)用中同時(shí)傳入一段文字、三張圖片和一段音頻,模型會(huì)返回一個(gè)捕捉了所有跨模態(tài)關(guān)系的統(tǒng)一向量。

說(shuō)得再直觀一點(diǎn)。比如一家電商平臺(tái)想做“以圖搜物”功能,但用戶的需求比較復(fù)雜:他拍了一張朋友穿的外套照片,同時(shí)輸入文本:“和這個(gè)款式類似但顏色要偏暖”。

在傳統(tǒng)方案下,系統(tǒng)只能要么理解圖片、要么理解文字,總是顧此失彼,兩條線索無(wú)法合流。

而交錯(cuò)輸入允許模型生成一個(gè)同時(shí)編碼了“外套版型”和“暖色調(diào)”的統(tǒng)一向量,再用這個(gè)向量去商品庫(kù)里做檢索。

兩種模態(tài)的信息在向量層面真正交匯成了一個(gè)完整的意圖。

03

Vibe Searching時(shí)代來(lái)了

如果說(shuō)用自然語(yǔ)言編程標(biāo)志著我們進(jìn)入了Vibe Coding時(shí)代,那么拿著一段描述、一張圖、一段音頻就能找到高度匹配的多模態(tài)內(nèi)容,標(biāo)志著我們正在進(jìn)入Vibe Searching時(shí)代。

當(dāng)新embedding模型接入谷歌Workspace以后,Gemini可以準(zhǔn)確分析那些混合了圖片和表格的金融文檔;在Gmail里,你記不清楚郵件的關(guān)鍵詞,你只需要給個(gè)模糊信息就能找到那封郵件。接入YouTube,用戶即便忘了視頻標(biāo)題和博主名字,只要描述視頻的內(nèi)容和風(fēng)格,就能精準(zhǔn)找到對(duì)應(yīng)的視頻。

模型不再是對(duì)關(guān)鍵詞做匹配,而可以理解審美、風(fēng)格和氛圍。

搜索的本質(zhì)也對(duì)應(yīng)發(fā)生變化:從前要精確匹配關(guān)鍵詞,現(xiàn)在只需模糊表達(dá)意圖。

你不再需要知道你要找的東西叫什么,你只需要告訴它,這個(gè)東西給你的感覺(jué)是什么。

這個(gè)轉(zhuǎn)變對(duì)內(nèi)容行業(yè)的沖擊尤其值得關(guān)注。如今的內(nèi)容推薦極度依賴人工打標(biāo)簽,沒(méi)被標(biāo)注的好內(nèi)容往往石沉大海。

模型理解不了一個(gè)作品的好,因?yàn)樗荒芄铝⒌乜串嬅妗⒙犚魳?lè)、讀文案。

現(xiàn)在的AI無(wú)法像人類一樣對(duì)美感有意會(huì)。

而Gemini Embedding 2卻能從綜合視角去“意會(huì)”一個(gè)作品,仿佛擁有了人類審美。

它可以聽出這首歌的旋律氣質(zhì)和某類用戶的聽歌偏好之間的語(yǔ)義距離,然后把它推到對(duì)的人面前。好內(nèi)容不再需要會(huì)自我營(yíng)銷,它只需要是好內(nèi)容。

企業(yè)的知識(shí)管理也是同理。

比如說(shuō)一家運(yùn)營(yíng)了十年的制造企業(yè),它的網(wǎng)盤里躺著上萬(wàn)份技術(shù)手冊(cè)、產(chǎn)品圖紙、質(zhì)檢報(bào)告和會(huì)議錄音。

某天一個(gè)新入職的工程師遇到了一個(gè)良品率異常的問(wèn)題,他隱約記得老師傅提過(guò)類似的案例,但不知道記錄在哪里。

可能某個(gè)PDF里的一張圖表中提到過(guò)類似的事情,也可能是某次會(huì)議錄音里的一段討論。以前他只能挨個(gè)問(wèn)人、翻文件夾碰運(yùn)氣。

而在跨模態(tài)檢索的加持下,他可以直接描述問(wèn)題的特征,系統(tǒng)就能從圖表、錄音、文檔中同時(shí)檢索,把三年前一位已經(jīng)離職的老哥在某次會(huì)議上提到的解決方案精準(zhǔn)地調(diào)出來(lái)。



企業(yè)最寶貴的經(jīng)驗(yàn)不再系于某個(gè)人的記憶,知識(shí)庫(kù)從一個(gè)堆放雜物的倉(cāng)庫(kù),變成了一個(gè)隨時(shí)響應(yīng)、迅速調(diào)用的實(shí)時(shí)大腦。

更遠(yuǎn)一些看,在具身智能領(lǐng)域,跨模態(tài)嵌入可能成為機(jī)器人理解物理世界的基礎(chǔ)設(shè)施。當(dāng)一個(gè)倉(cāng)儲(chǔ)機(jī)器人聽到“把那個(gè)紅色的、摸起來(lái)比較軟的東西拿過(guò)來(lái)”時(shí),它可以同時(shí)處理語(yǔ)言指令、視覺(jué)識(shí)別和觸覺(jué)記憶,并在語(yǔ)義空間中找到這三者的交匯點(diǎn)。

在統(tǒng)一的向量空間里建立視覺(jué)、聽覺(jué)與邏輯的通感,這恰恰是Gemini Embedding 2所擅長(zhǎng)的事情,讓機(jī)器人不再機(jī)械地執(zhí)行預(yù)設(shè)指令,而是像人一樣在真實(shí)的物理空間中感知、判斷、行動(dòng)。

谷歌已經(jīng)出手了。留給對(duì)手的時(shí)間窗口,正在關(guān)閉。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
佩斯科夫:普京準(zhǔn)備重新考慮接收伊朗濃縮鈾

佩斯科夫:普京準(zhǔn)備重新考慮接收伊朗濃縮鈾

新京報(bào)
2026-04-16 07:14:22
喜訊!北約宣布向?yàn)跆峁?00億美元援助,烏軍2026年軍費(fèi)達(dá)1700億

喜訊!北約宣布向?yàn)跆峁?00億美元援助,烏軍2026年軍費(fèi)達(dá)1700億

史政先鋒
2026-04-16 16:09:37
靈隱寺事件,遠(yuǎn)非低智表象那么簡(jiǎn)單

靈隱寺事件,遠(yuǎn)非低智表象那么簡(jiǎn)單

林中木白
2026-04-16 17:34:07
法國(guó)全票通過(guò)“文物歸還法案” 接下來(lái)呢?

法國(guó)全票通過(guò)“文物歸還法案” 接下來(lái)呢?

看看新聞Knews
2026-04-15 22:44:05
杭州一診所用一個(gè)針頭給15人采血,居民擔(dān)心傳染疾病,診所負(fù)責(zé)人:已開除涉事員工,并帶采血居民體檢打疫苗

杭州一診所用一個(gè)針頭給15人采血,居民擔(dān)心傳染疾病,診所負(fù)責(zé)人:已開除涉事員工,并帶采血居民體檢打疫苗

極目新聞
2026-04-16 18:04:42
鞠婧祎方回應(yīng)“絲芭創(chuàng)始人王子杰去世”:不與爭(zhēng)論,生命為大,愿安息;王子杰曾創(chuàng)立SNH48,打造鞠婧祎“四千年美女”標(biāo)簽,推動(dòng)其成頂流

鞠婧祎方回應(yīng)“絲芭創(chuàng)始人王子杰去世”:不與爭(zhēng)論,生命為大,愿安息;王子杰曾創(chuàng)立SNH48,打造鞠婧祎“四千年美女”標(biāo)簽,推動(dòng)其成頂流

大風(fēng)新聞
2026-04-16 14:09:04
廣西壯族自治區(qū)主席580元買包后:崇左文旅跟進(jìn)“安利”,同款已賣斷貨

廣西壯族自治區(qū)主席580元買包后:崇左文旅跟進(jìn)“安利”,同款已賣斷貨

上觀新聞
2026-04-15 16:28:10
龍蝦時(shí)代:GEO2.0進(jìn)化即將開啟

龍蝦時(shí)代:GEO2.0進(jìn)化即將開啟

楊子超
2026-04-15 15:22:51
蔣介石最大的決策失誤:錯(cuò)殺瞿秋白,讓國(guó)民黨失去了最后的人心!

蔣介石最大的決策失誤:錯(cuò)殺瞿秋白,讓國(guó)民黨失去了最后的人心!

掠影后有感
2026-04-16 09:44:54
班主任猥褻女孩已被刑拘,官方將對(duì)相關(guān)單位和責(zé)任人追責(zé)問(wèn)責(zé)

班主任猥褻女孩已被刑拘,官方將對(duì)相關(guān)單位和責(zé)任人追責(zé)問(wèn)責(zé)

極目新聞
2026-04-16 18:56:52
順?lè)宀蛷d北京門店全部關(guān)閉:司法糾紛不斷,消費(fèi)者上萬(wàn)儲(chǔ)值打水漂?

順?lè)宀蛷d北京門店全部關(guān)閉:司法糾紛不斷,消費(fèi)者上萬(wàn)儲(chǔ)值打水漂?

北京商報(bào)
2026-04-15 20:03:10
恒大負(fù)債2.4萬(wàn)億,許家印只轉(zhuǎn)移走了500多億,剩下的錢去哪里了?

恒大負(fù)債2.4萬(wàn)億,許家印只轉(zhuǎn)移走了500多億,剩下的錢去哪里了?

林小明商業(yè)評(píng)說(shuō)
2026-04-16 14:57:19
家有二老,格林貢獻(xiàn)絕命兩搶斷&霍福德末節(jié)三分4中4

家有二老,格林貢獻(xiàn)絕命兩搶斷&霍福德末節(jié)三分4中4

懂球帝
2026-04-16 13:27:22
中國(guó)出生和死亡人口差距越來(lái)越大:2025年出生人口跌破800萬(wàn),凈減少339萬(wàn)人

中國(guó)出生和死亡人口差距越來(lái)越大:2025年出生人口跌破800萬(wàn),凈減少339萬(wàn)人

互聯(lián)網(wǎng)大觀
2026-04-16 12:37:44
快船賽季總結(jié):小卡時(shí)代兩次無(wú)緣季后賽 隊(duì)內(nèi)麻煩不斷或開啟重建

快船賽季總結(jié):小卡時(shí)代兩次無(wú)緣季后賽 隊(duì)內(nèi)麻煩不斷或開啟重建

醉臥浮生
2026-04-16 13:07:14
極大反差:中國(guó)人暴跌55%,日本外國(guó)游客又創(chuàng)新高,俄羅斯人增26%

極大反差:中國(guó)人暴跌55%,日本外國(guó)游客又創(chuàng)新高,俄羅斯人增26%

壹只灰鴿子
2026-04-15 22:41:48
就這張照片,他已經(jīng)秒殺了絕大多數(shù)有錢人

就這張照片,他已經(jīng)秒殺了絕大多數(shù)有錢人

動(dòng)物奇奇怪怪
2026-04-16 15:22:15
大料!許家印的背后金主,也栽了!

大料!許家印的背后金主,也栽了!

財(cái)經(jīng)要參
2026-04-16 13:31:31
超100國(guó)收到喜訊,美國(guó)將退還1萬(wàn)億,特朗普還留有后手?

超100國(guó)收到喜訊,美國(guó)將退還1萬(wàn)億,特朗普還留有后手?

頭條爆料007
2026-04-16 01:17:45
女子利用天氣預(yù)報(bào)頻繁購(gòu)買飛機(jī)延誤險(xiǎn),5年買中900多次,獲賠近300萬(wàn),被抓時(shí):我符合保險(xiǎn)理賠要求

女子利用天氣預(yù)報(bào)頻繁購(gòu)買飛機(jī)延誤險(xiǎn),5年買中900多次,獲賠近300萬(wàn),被抓時(shí):我符合保險(xiǎn)理賠要求

譚老師地理大課堂
2026-04-15 20:11:42
2026-04-16 19:15:00
字母榜 incentive-icons
字母榜
讓未來(lái)不止于大。
2383文章數(shù) 8059關(guān)注度
往期回顧 全部

科技要聞

趙明:智駕之戰(zhàn),看誰(shuí)在大模型上更高效

頭條要聞

知名女主持戀情曝光已有7年 男方與鄭凱常被網(wǎng)友混淆

頭條要聞

知名女主持戀情曝光已有7年 男方與鄭凱常被網(wǎng)友混淆

體育要聞

很快,亞洲籃球要有自己的NCAA了?

娛樂(lè)要聞

絲芭傳媒創(chuàng)始人王子杰去世,享年63歲

財(cái)經(jīng)要聞

一季度GDP,5.0%!

汽車要聞

空間大五個(gè)乘客都滿意?體驗(yàn)嵐圖泰山X8

態(tài)度原創(chuàng)

健康
房產(chǎn)
數(shù)碼
游戲
軍事航空

干細(xì)胞抗衰4大誤區(qū),90%的人都中招

房產(chǎn)要聞

人人人人!封關(guān)后首屆消博會(huì),擠爆了!

數(shù)碼要聞

為什么現(xiàn)在高端筆記本都認(rèn)準(zhǔn)OLED屏幕?

卡普空是目前最夯游戲公司嗎?也許只有一家對(duì)手

軍事要聞

封鎖霍爾木茲海峽后 美釋放雙重信號(hào)

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版