无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

谷歌AI不認識Google

0
分享至



編輯|Panda

AI 很有用,但也有黑歷史,還不少,比如就是算不準 Strawberry 中有多少個 r、知道馬嘉祺卻說不出他的名字以及還在持續困擾用戶的 AI 幻覺問題。

今天,又有新的問題出現了,這一次是谷歌搜索。

有用戶發現,近日升級了 AI 能力的谷歌搜索在面對「google 里面有幾個 P」這樣的簡單問題時竟然失敗了!



這件事引發廣泛關注和測試熱潮。我們也簡單試了下,就算用漢語提問,谷歌搜索同樣錯誤,而且還自行加戲,導致錯上加錯 —— 說 Pixel 里面有兩個 P。



事實上,還不只是 google 這個詞,谷歌搜索在面對很多其它詞時也會出現類似的字母計數和拼寫問題:





甚至純漢語的提問也可能遭遇這樣的問題:



那么,為什么會出現這樣的問題呢?

谷歌把搜索引擎 AI 化了

要理解這次的問題,得先知道谷歌最近做了什么。

今年 5 月的 Google I/O 2026 大會上,谷歌宣布了一次被稱為「搜索框 25 年來最大升級」的搜索改版。新版谷歌搜索以重新設計的「智能搜索框」為核心,將 AI Overview 與 AI Mode 整合為統一的搜索流程:用戶提問后,AI 直接生成答案并支持追問,傳統鏈接依然保留,但不再是交互的主角。

谷歌搜索負責人 Liz Reid 將其定性為「過去 25 年來搜索框最大的一次升級」。這是谷歌在 OpenAI、Perplexity 等 AI 搜索競爭者的壓力下,做出的一次全面押注。

問題也隨之而來。數周前,就有用戶發現,在谷歌搜索框里輸入「disregard(無視)」這個詞,AI 不是給出詞典解釋,而是把這個詞當成了指令,回答說:「好的,我已忽略你之前的消息,有什么新問題請告訴我。」谷歌很快修復了這個 bug。



但拼寫錯誤的問題,目前依然存在。

TechCrunch 咨詢了谷歌相關人士,得到了一個相當坦誠的回應:「在詞內部數字母一直是大語言模型的已知難題,我們正在修復這個特定問題。」

真正的原因:AI 其實「看」不見字母

谷歌的回應點出了核心:這不是谷歌一家的問題,而是當前所有 LLM 共同面臨的結構性缺陷。

想理解為什么 AI 數不清字母,得先理解 AI 是怎么「讀字」的。

我們人類讀一個詞,是按字母一個一個掃過去的:G-O-O-G-L-E,六個字母。這個過程天然包含了對字符的感知。

但 LLM 不是這樣工作的。它處理文字的基本單位不是字母,而是token—— 可以理解為一種更粗粒度的「語言碎片」。一個 token 可能是一個完整的單詞,也可能是半個單詞,甚至可能是幾個詞的組合。

以 OpenAI 的分詞器為例,「Strawberry」這個詞會被切成三個 token:「Str」「aw」「berry」。對 AI 來說,它接收到的不是 11 個字母,而是 3 個抽象的語言單元。你讓它數里面有幾個「r」,它必須先「還原」這些 token 里隱藏的字母信息,這一步沒有被明確訓練過,所以它往往做不好。



「Google」這個詞同樣如此。在常見的分詞方案下,它極有可能被當成一個 token 整體處理,其中的字母組合信息已經被「壓縮」進了一個抽象編號。問 AI 里面有幾個 P,相當于問一個只背過單詞音節的人,那個詞里有沒有某個字母 —— 他未必知道。



馬里蘭大學 AI 研究員 Matthew Guzdial 解釋說:「當模型看到 the 這個詞時,它拿到的是 the 的整體編碼,它并不知道里面有 T、H、E。」

LLM 處理的是語言的「意思」,而非文字的「形狀」。拼寫恰恰屬于后者。

老問題了

「Strawberry 里有幾個 r」這道題,早在大模型興起之初就成了一個測試 AI 的經典梗。幾乎所有主流模型,在不加特別提示的情況下,都會答錯。

剛剛加入 Anthropic 的 Andrej Karpathy 曾專門寫過一個小程序,用 emoji 來可視化 token 的切分方式,讓普通人直觀感受到「AI 眼中的文字」是什么樣的。當你看到「How many letters 'r' in the word'strawberry'?」在模型視角里變成一串被隨機切開的色塊,就能明白為什么它數不清了。



有意思的是,這個問題并非無解。如果你在提問時加上「請逐步思考」或「請先把每個字母列出來」,模型通常能答對。這說明它具備推理所需的基礎信息,只是在沒有被要求「認真想」的情況下,會直接給出一個「快速直覺答案」,而這個答案往往是錯的。



這種現象和心理學里的「系統一 / 系統二」思維模式頗為相似:人類平時也依賴快速直覺(系統一),只有在被要求時才切換到深思熟慮(系統二)。大模型的默認模式,也是「能省則省」。

Karpathy 給這種 AI 能力分布不均的現象起了個名字:Jagged Intelligence(參差不齊的智能)。一個能在數學奧林匹克競賽中拿銀牌的模型,可能數不清一個單詞里有幾個字母;一個能寫出流暢代碼的 AI,可能判斷不了兩個圓是否重疊。這種反直覺的能力分布,是當前大模型的普遍特征,而非個別缺陷。

更多詳情,可參閱機器之心報道《為什么 AI 數不清 Strawberry 里有幾個 r?Karpathy:我用表情包給你解釋一下》。

為什么這次在谷歌身上特別扎眼?

同樣的底層問題,為什么偏偏在谷歌搜索這里引發了更大的討論?

原因很簡單:場景變了,預期就變了。

在 ChatGPT 或其他 AI 聊天工具里,用戶多少有心理預期:這是個 AI,它可能犯錯,偶爾答錯數字母也情有可原。但谷歌搜索不同。幾十年來,它是很多人獲取準確信息的默認入口,是「有問必答」的代名詞。

當谷歌把 AI 直接嵌入搜索結果頁面,并以權威口吻給出「答案」(而非鏈接),用戶的容錯預期就大幅降低了。一旦答錯,觀感會比同樣的錯誤發生在獨立 AI 產品上嚴重得多。

更何況,這次翻車的詞不是什么生僻名詞,而是「Google」本身。這在傳播上的效果,可以說是被完美拿捏了。

事實上,這已經不是 Google AI Overviews 第一次出現離譜錯誤。2024 年功能剛上線時,它曾將 Reddit 玩笑帖和諷刺內容誤當成可靠信息來源,甚至建議用戶在披薩里加入膠水、或「每天吃一塊小石頭」。盡管谷歌隨后進行了多輪修復,但近期再次出現把普通詞匯誤識別為系統指令的問題,也說明大模型在信息檢索、上下文理解與指令邊界識別上,仍存在較深層的系統性缺陷。



能治嗎?

從技術角度看,答案是:難,但有方向,也有代價。

Northeastern 大學研究 LLM 可解釋性的博士生 Sheridan Feucht 認為,「token 的邊界本身就是模糊的,不可能存在一個完美的分詞方案」。這句話點出了問題的核心:如果要從根本上解決字母感知的缺陷,方向之一是拋棄現有的分詞機制,改用更細粒度的方式處理文字。

舉個例子,Meta AI 研究團隊在 2024 年底發布了一種名為Byte Latent Transformer(BLT)的新架構,直接繞過分詞器,讓模型從最底層的「字節」開始處理文字 —— 相當于讓 AI 真正逐字符「讀」一段話,而非靠抽象的語言碎片拼湊語義。在字符級任務的測試中,BLT 的表現遠超基于分詞的傳統模型,在拼寫類任務上接近滿分,而 LLaMA 3 在同類測試里幾乎全軍覆沒。



BLT 由三個模塊組成:一個輕量級 Local Encoder,用于將輸入字節編碼為分塊表示;一個計算開銷較大的 Latent Transformer,用于處理分塊表示;以及一個輕量級 Local Decoder,用于解碼下一個字節分塊。BLT 融合了字節 n-gram 嵌入和交叉注意力機制,以最大化潛在變換器與字節級模塊之間的信息流動。與固定詞表的分詞方法不同,BLT 將字節動態分組為分塊,從而保留對字節級信息的訪問。arXiv: 2412.09871

但這個方案的代價是顯而易見的。拋棄分詞,意味著序列長度急劇增加。一句話原本被壓縮成幾十個 token,換成逐字節處理后,序列長度會膨脹數倍乃至十倍。Transformer 的注意力機制計算量隨序列長度呈二次方增長 —— 也就是說,序列翻倍,計算量可能翻四倍。這在訓練規模上的代價,是任何大型商業模型都需要認真權衡的。

Meta 的 BLT 通過一種「動態分組」策略緩解了這個問題:對于內容可預測、信息密度低的文字片段,模型會自動合并處理,減少無謂的計算;只在遇到復雜、高熵的語言片段時才精細處理。在同等推理成本下,BLT 的擴展效率甚至優于傳統 token 模型。但這套架構目前最大的實驗規模是 80 億參數,距離谷歌、OpenAI 等公司動輒數千億參數的生產級模型,還有相當距離。從零開始用新架構重新訓練一個能支撐搜索引擎的大模型,成本可能是數億乃至數十億美元量級的事情。

另一個代價更低的方向,是讓模型「知道自己不擅長什么」。Karpathy 將其稱為「認知自我知識(cognitive self-knowledge)」—— 如果模型能識別出「數字母」是自己的薄弱項,就可以在遇到此類問題時自動調用外部工具(如代碼解釋器、計算器、搜索)來輔助,而不是直接憑直覺給出錯誤答案。



舉個例子,針對經典的「strawberry 中有多少個 r」的問題,谷歌搜索會檢索網絡后給出答案,而非讓 AI 自己計數(結果中的鏈接符號)。



Meta 在 Llama 3 的訓練中,就專門針對「讓模型只回答它知道的問題」做了系統性工程:通過知識探測技術,篩選出模型在多次采樣中都能正確作答的問題生成訓練數據;對那些模型反復答錯的問題,則訓練其學會拒絕回答,而非自信地給出錯誤結論。

相比重建架構,這類訓練層面的修補成本要低得多,但它治的是癥狀不是病根。

當然,補丁式的修復也在同步進行。從谷歌的表態來看,他們正在專門針對「詞內字母計數」做優化。只是這類根植于架構的問題,修復周期往往比用戶期待的要長得多,還涉及到成本問題。

https://techcrunch.com/2026/05/27/why-googles-ai-cant-spell-google-or-anything-else/

https://www.bbc.com/news/articles/cd11gzejgz4o

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

古巴8個鮮為人知的事實:曾迫使數萬華人流亡,從富裕國家滑落至極度困難

三言四拍
2026-05-30 13:05:06
扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

扎哈羅娃:俄將對羅馬尼亞迅速采取報復措施

參考消息
2026-05-30 11:58:56
三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

三花智控高管“為孩子教育”減持套現,兩千億巨頭陷熱門概念敘事與資本套現割裂

每日經濟新聞
2026-05-30 14:41:08
“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

“結婚22年后發現兩兒子均非親生”當事人發聲:我對他們恨之入骨!

新民周刊
2026-05-30 17:32:14
兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

兩名9歲女孩被困電梯近2小時!求救幾十次后,保安回應:不要再按電梯玩了

上觀新聞
2026-05-30 19:34:29
俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

俄烏戰爭,如果俄羅斯最終贏了,你我在有生之年很可能會親歷戰爭

混沌錄
2026-05-29 23:26:12
重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

重磅:烏克蘭擊毀俄羅斯兩架圖142!打掉伊斯坎德爾系統

項鵬飛
2026-05-30 16:28:01
西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

西決搶七大戰裁判出爐:戴維斯擔任主裁 三人執哨兩隊勝率曝光

羅說NBA
2026-05-30 21:26:04
央視曝光!涉事品牌:全部下架!天熱很多人愛喝

央視曝光!涉事品牌:全部下架!天熱很多人愛喝

蓬勃新聞
2026-05-29 14:53:17
打虎!王益華被查

打虎!王益華被查

新京報
2026-05-30 20:29:17
41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

41歲夫妻因“房事頻繁”雙雙入院,醫生提醒:每周不應超過一個數

醫學原創故事會
2026-05-29 23:34:07
伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

伊朗濃縮鈾材料將被挖出銷毀,特朗普就伊朗戰事最新表態

上游新聞
2026-05-29 23:35:03
D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

D1804次列車受電弓遭異物擊打,被困隧道內超2小時,乘客稱全車停電悶熱異常,身上像從水里撈出來的,備用列車已到現場并開始轉運

臺州交通廣播
2026-05-30 13:47:54
耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

耿同學再下一城!南開免去陳某院長職務,14張圖表確認學術不端

聽心堂
2026-05-30 20:24:06
中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

中方代表:日本沒有資格談國際防務合作 須警惕軍國主義思潮借機復活

環球網資訊
2026-05-30 19:36:11
禁投美股,難得全球大國中惟一正確

禁投美股,難得全球大國中惟一正確

家傳編輯部
2026-05-30 12:24:47
海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

海南一三甲醫院空調外機安在室內走廊,患者吐槽“看病比室外還熱”,院方回應

上游新聞
2026-05-30 16:05:05
中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

中建八局資質被正式撤銷,給全行業敲響警鐘,考公需要注意了。

解說阿洎
2026-05-29 12:34:21
最新!債務突破100萬億!

最新!債務突破100萬億!

葉初七
2026-05-30 10:28:14
網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

網紅狗被偷后續:男子被帶走,老婆還在哺乳期,收狗人曝更多內情

閱微札記
2026-05-30 11:47:19
2026-05-31 00:19:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
13116文章數 142655關注度
往期回顧 全部

科技要聞

車圈大佬發聲:價格戰遠去,但競爭仍殘酷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

頭條要聞

兩名9歲女孩被困電梯近2小時 求救幾十次物業無動于衷

體育要聞

歲月不饒人!39歲德約鏖戰近5小時拼到嘔吐

娛樂要聞

張碧晨《歌手》 “活人微死” 自嘲

財經要聞

雙匯管不住一頭豬

汽車要聞

900V+3.2秒破百 領克10+&領克10上市16.99萬元起

態度原創

房產
教育
旅游
數碼
手機

房產要聞

紅動五月!全國搶入核心資產,廣州盯緊凱旋新世界!

教育要聞

別再丟分了!中考物理焦耳定律實驗,一道題搞定4 個高頻易錯點

旅游要聞

六一帶娃去哪玩?鄭州又多了個好去處!

數碼要聞

消息稱微軟下周發布英偉達處理器Windows PC,戴爾也會跟進

手機要聞

REDMI K90至尊版入網?K90單品激活破200萬

無障礙瀏覽 進入關懷版