網易首頁 > 網易號 > 正文申請入駐

谷歌AI不認識Google

2026-05-28 18:08:48　來源: 機器之心Pro

河北舉報

分享至

編輯｜Panda

AI 很有用，但也有黑歷史，還不少，比如就是算不準 Strawberry 中有多少個 r、知道馬嘉祺卻說不出他的名字以及還在持續困擾用戶的 AI 幻覺問題。

今天，又有新的問題出現了，這一次是谷歌搜索。

有用戶發現，近日升級了 AI 能力的谷歌搜索在面對「google 里面有幾個 P」這樣的簡單問題時竟然失敗了！

這件事引發廣泛關注和測試熱潮。我們也簡單試了下，就算用漢語提問，谷歌搜索同樣錯誤，而且還自行加戲，導致錯上加錯 —— 說 Pixel 里面有兩個 P。

事實上，還不只是 google 這個詞，谷歌搜索在面對很多其它詞時也會出現類似的字母計數和拼寫問題：

甚至純漢語的提問也可能遭遇這樣的問題：

那么，為什么會出現這樣的問題呢？

谷歌把搜索引擎 AI 化了

要理解這次的問題，得先知道谷歌最近做了什么。

今年 5 月的 Google I/O 2026 大會上，谷歌宣布了一次被稱為「搜索框 25 年來最大升級」的搜索改版。新版谷歌搜索以重新設計的「智能搜索框」為核心，將 AI Overview 與 AI Mode 整合為統一的搜索流程：用戶提問后，AI 直接生成答案并支持追問，傳統鏈接依然保留，但不再是交互的主角。

谷歌搜索負責人 Liz Reid 將其定性為「過去 25 年來搜索框最大的一次升級」。這是谷歌在 OpenAI、Perplexity 等 AI 搜索競爭者的壓力下，做出的一次全面押注。

問題也隨之而來。數周前，就有用戶發現，在谷歌搜索框里輸入「disregard（無視）」這個詞，AI 不是給出詞典解釋，而是把這個詞當成了指令，回答說：「好的，我已忽略你之前的消息，有什么新問題請告訴我。」谷歌很快修復了這個 bug。

但拼寫錯誤的問題，目前依然存在。

TechCrunch 咨詢了谷歌相關人士，得到了一個相當坦誠的回應：「在詞內部數字母一直是大語言模型的已知難題，我們正在修復這個特定問題。」

真正的原因：AI 其實「看」不見字母

谷歌的回應點出了核心：這不是谷歌一家的問題，而是當前所有 LLM 共同面臨的結構性缺陷。

想理解為什么 AI 數不清字母，得先理解 AI 是怎么「讀字」的。

我們人類讀一個詞，是按字母一個一個掃過去的：G-O-O-G-L-E，六個字母。這個過程天然包含了對字符的感知。

但 LLM 不是這樣工作的。它處理文字的基本單位不是字母，而是token—— 可以理解為一種更粗粒度的「語言碎片」。一個 token 可能是一個完整的單詞，也可能是半個單詞，甚至可能是幾個詞的組合。

以 OpenAI 的分詞器為例，「Strawberry」這個詞會被切成三個 token：「Str」「aw」「berry」。對 AI 來說，它接收到的不是 11 個字母，而是 3 個抽象的語言單元。你讓它數里面有幾個「r」，它必須先「還原」這些 token 里隱藏的字母信息，這一步沒有被明確訓練過，所以它往往做不好。

「Google」這個詞同樣如此。在常見的分詞方案下，它極有可能被當成一個 token 整體處理，其中的字母組合信息已經被「壓縮」進了一個抽象編號。問 AI 里面有幾個 P，相當于問一個只背過單詞音節的人，那個詞里有沒有某個字母 —— 他未必知道。

馬里蘭大學 AI 研究員 Matthew Guzdial 解釋說：「當模型看到 the 這個詞時，它拿到的是 the 的整體編碼，它并不知道里面有 T、H、E。」

LLM 處理的是語言的「意思」，而非文字的「形狀」。拼寫恰恰屬于后者。

老問題了

「Strawberry 里有幾個 r」這道題，早在大模型興起之初就成了一個測試 AI 的經典梗。幾乎所有主流模型，在不加特別提示的情況下，都會答錯。

剛剛加入 Anthropic 的 Andrej Karpathy 曾專門寫過一個小程序，用 emoji 來可視化 token 的切分方式，讓普通人直觀感受到「AI 眼中的文字」是什么樣的。當你看到「How many letters 'r' in the word'strawberry'?」在模型視角里變成一串被隨機切開的色塊，就能明白為什么它數不清了。

有意思的是，這個問題并非無解。如果你在提問時加上「請逐步思考」或「請先把每個字母列出來」，模型通常能答對。這說明它具備推理所需的基礎信息，只是在沒有被要求「認真想」的情況下，會直接給出一個「快速直覺答案」，而這個答案往往是錯的。

這種現象和心理學里的「系統一 / 系統二」思維模式頗為相似：人類平時也依賴快速直覺（系統一），只有在被要求時才切換到深思熟慮（系統二）。大模型的默認模式，也是「能省則省」。

Karpathy 給這種 AI 能力分布不均的現象起了個名字：Jagged Intelligence（參差不齊的智能）。一個能在數學奧林匹克競賽中拿銀牌的模型，可能數不清一個單詞里有幾個字母；一個能寫出流暢代碼的 AI，可能判斷不了兩個圓是否重疊。這種反直覺的能力分布，是當前大模型的普遍特征，而非個別缺陷。

更多詳情，可參閱機器之心報道《為什么 AI 數不清 Strawberry 里有幾個 r？Karpathy：我用表情包給你解釋一下》。

為什么這次在谷歌身上特別扎眼？

同樣的底層問題，為什么偏偏在谷歌搜索這里引發了更大的討論？

原因很簡單：場景變了，預期就變了。

在 ChatGPT 或其他 AI 聊天工具里，用戶多少有心理預期：這是個 AI，它可能犯錯，偶爾答錯數字母也情有可原。但谷歌搜索不同。幾十年來，它是很多人獲取準確信息的默認入口，是「有問必答」的代名詞。

當谷歌把 AI 直接嵌入搜索結果頁面，并以權威口吻給出「答案」（而非鏈接），用戶的容錯預期就大幅降低了。一旦答錯，觀感會比同樣的錯誤發生在獨立 AI 產品上嚴重得多。

更何況，這次翻車的詞不是什么生僻名詞，而是「Google」本身。這在傳播上的效果，可以說是被完美拿捏了。

事實上，這已經不是 Google AI Overviews 第一次出現離譜錯誤。2024 年功能剛上線時，它曾將 Reddit 玩笑帖和諷刺內容誤當成可靠信息來源，甚至建議用戶在披薩里加入膠水、或「每天吃一塊小石頭」。盡管谷歌隨后進行了多輪修復，但近期再次出現把普通詞匯誤識別為系統指令的問題，也說明大模型在信息檢索、上下文理解與指令邊界識別上，仍存在較深層的系統性缺陷。

能治嗎？

從技術角度看，答案是：難，但有方向，也有代價。

Northeastern 大學研究 LLM 可解釋性的博士生 Sheridan Feucht 認為，「token 的邊界本身就是模糊的，不可能存在一個完美的分詞方案」。這句話點出了問題的核心：如果要從根本上解決字母感知的缺陷，方向之一是拋棄現有的分詞機制，改用更細粒度的方式處理文字。

舉個例子，Meta AI 研究團隊在 2024 年底發布了一種名為Byte Latent Transformer（BLT）的新架構，直接繞過分詞器，讓模型從最底層的「字節」開始處理文字 —— 相當于讓 AI 真正逐字符「讀」一段話，而非靠抽象的語言碎片拼湊語義。在字符級任務的測試中，BLT 的表現遠超基于分詞的傳統模型，在拼寫類任務上接近滿分，而 LLaMA 3 在同類測試里幾乎全軍覆沒。

BLT 由三個模塊組成：一個輕量級 Local Encoder，用于將輸入字節編碼為分塊表示；一個計算開銷較大的 Latent Transformer，用于處理分塊表示；以及一個輕量級 Local Decoder，用于解碼下一個字節分塊。BLT 融合了字節 n-gram 嵌入和交叉注意力機制，以最大化潛在變換器與字節級模塊之間的信息流動。與固定詞表的分詞方法不同，BLT 將字節動態分組為分塊，從而保留對字節級信息的訪問。arXiv: 2412.09871

但這個方案的代價是顯而易見的。拋棄分詞，意味著序列長度急劇增加。一句話原本被壓縮成幾十個 token，換成逐字節處理后，序列長度會膨脹數倍乃至十倍。Transformer 的注意力機制計算量隨序列長度呈二次方增長 —— 也就是說，序列翻倍，計算量可能翻四倍。這在訓練規模上的代價，是任何大型商業模型都需要認真權衡的。

Meta 的 BLT 通過一種「動態分組」策略緩解了這個問題：對于內容可預測、信息密度低的文字片段，模型會自動合并處理，減少無謂的計算；只在遇到復雜、高熵的語言片段時才精細處理。在同等推理成本下，BLT 的擴展效率甚至優于傳統 token 模型。但這套架構目前最大的實驗規模是 80 億參數，距離谷歌、OpenAI 等公司動輒數千億參數的生產級模型，還有相當距離。從零開始用新架構重新訓練一個能支撐搜索引擎的大模型，成本可能是數億乃至數十億美元量級的事情。

另一個代價更低的方向，是讓模型「知道自己不擅長什么」。Karpathy 將其稱為「認知自我知識（cognitive self-knowledge）」—— 如果模型能識別出「數字母」是自己的薄弱項，就可以在遇到此類問題時自動調用外部工具（如代碼解釋器、計算器、搜索）來輔助，而不是直接憑直覺給出錯誤答案。

舉個例子，針對經典的「strawberry 中有多少個 r」的問題，谷歌搜索會檢索網絡后給出答案，而非讓 AI 自己計數（結果中的鏈接符號）。

Meta 在 Llama 3 的訓練中，就專門針對「讓模型只回答它知道的問題」做了系統性工程：通過知識探測技術，篩選出模型在多次采樣中都能正確作答的問題生成訓練數據；對那些模型反復答錯的問題，則訓練其學會拒絕回答，而非自信地給出錯誤結論。

相比重建架構，這類訓練層面的修補成本要低得多，但它治的是癥狀不是病根。

當然，補丁式的修復也在同步進行。從谷歌的表態來看，他們正在專門針對「詞內字母計數」做優化。只是這類根植于架構的問題，修復周期往往比用戶期待的要長得多，還涉及到成本問題。

https://techcrunch.com/2026/05/27/why-googles-ai-cant-spell-google-or-anything-else/

https://www.bbc.com/news/articles/cd11gzejgz4o

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.