網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

用嘴打字時(shí)代來了！輸入法一夜成了小甜甜，微信/豆包/千問聚齊

2026-06-24 16:33:50　來源: 雷科技

廣東舉報(bào)

分享至

上周，《讀佳》獨(dú)家報(bào)道了阿里千問團(tuán)隊(duì)即將推出一款手機(jī)輸入法，不同于之前集成在千問 PC 端的桌面輸入法組件，這次的千問輸入法將是一個(gè)獨(dú)立的手機(jī) APP。

BAT（字節(jié)跳動(dòng)、阿里巴巴、騰訊）都湊齊了。

微信輸入法從兩年前開始擁抱 AI，今年更是圍繞 AI 語音輸入進(jìn)行了多輪重大更新。核心圍繞語音輸入的豆包輸入法在去年底率先上線手機(jī)端，半年后又順勢推出桌面端。

至于千問，上個(gè)月剛在千問 PC 端上線 AI 語音輸入法，現(xiàn)在推出手機(jī)端也在情理之中，而且不用猜，產(chǎn)品也是核心圍繞「語音輸入」。

圖片來源：千問

而互聯(lián)網(wǎng)巨頭，不，應(yīng)該說 AI 巨頭對輸入法——尤其是對「語音輸入」的重視已經(jīng)是司馬昭之心，路人皆知。

很多人可能會疑惑，輸入法早就是一個(gè)成熟到不能再成熟的品類，九鍵、26 鍵、雙拼、五筆、手寫，該有的基本都有，搜狗、訊飛、百度等老玩家也經(jīng)營多年。大廠真有必要重新做一遍嗎？

答案當(dāng)然是有。

兩年前，雷科技寫過一篇《紛紛接入大模型，輸入法講起了 AI 新故事》，彼時(shí)各大輸入法都在接入大模型，進(jìn)行各種 AI 化嘗試，塞入大量 Chatbot 上已有 AI 功能，相當(dāng)簡單粗暴。

說實(shí)話，那些功能大部分都是在 FOMO 情緒下的盲目上馬，至少從雷科技編輯、周邊朋友的反饋來看，用戶并不想使用一個(gè)塞滿功能的輸入法，不論是在桌面還是手機(jī)上。

圖片來源：雷科技

但這一波「語音輸入」更有點(diǎn)返璞歸真，不再折騰各種花里胡哨的功能，而是回到「輸入」方式和體驗(yàn)上，重新用 AI 將輸入法再造一遍。

AI 語音輸入全面進(jìn)步，用嘴打字時(shí)代來了

必須要說的是，一年之前，我很少用語音輸入。

不是我不想用，畢竟說話肯定是比打字更輕松的一種輸入方式，尤其是在手機(jī)上。而究其根本，問題主要出在識別效果。說一句話，錯(cuò)幾個(gè)字；碰到不太標(biāo)準(zhǔn)的普通話、專有名詞或中英文混說，結(jié)果更容易跑偏。

結(jié)果就是，我原本想少打幾個(gè)字，最后卻要盯著屏幕逐句檢查，再移動(dòng)光標(biāo)修改。嘴上省下來的力氣，又被手動(dòng)糾錯(cuò)拿走了。這種體驗(yàn)特別容易勸退人。

簡言之，語音輸入只要錯(cuò)得足夠頻繁，用戶就會重新拿起鍵盤，因?yàn)榇蜃蛛m然慢，至少結(jié)果相對可控。

但現(xiàn)在的情況變了。一方面是 AI 技術(shù)帶來的變化，更準(zhǔn)確地說是語音識別和語言模型的進(jìn)步，很多豆包 APP 用戶應(yīng)該很早就會體會到，語音輸入已經(jīng)完全可以滿足 AI 交互的輸入要求。

不只是豆包輸入法。事實(shí)上，我最常用的手機(jī)/桌面輸入法還是微信輸入法，原因先按下不表，重點(diǎn)從去年底 iOS/Android 端的 3.0.0 更新開始，微信輸入法基本都在圍繞「語音輸入」進(jìn)行優(yōu)化迭代，又是全面升級語音輸入大模型、提升識別能力，又是優(yōu)化語音輸入體驗(yàn)。

在最近一輪更新中，微信輸入法全平臺版本再次升級了語音輸入大模型，也支持自動(dòng)去掉說話時(shí)的口水詞、智能加標(biāo)點(diǎn)/分段等特性。

圖片來源：微信

雷科技讀者可能之前也看到了一篇《語音輸入法大橫評：豆包/千問/搜狗/Typeless誰才是「最強(qiáng)嘴替」？》，我們對豆包輸入法、千問、搜狗輸入法和 Typeless 四款桌面端 AI 語音輸入工具做了橫評，這里不再贅述。

測試中，豆包采用實(shí)時(shí)轉(zhuǎn)寫，基本能做到邊說邊出字，前面暫時(shí)識別錯(cuò)誤的內(nèi)容還會隨著后文補(bǔ)充被重新修正。千問的輸出速度慢一些，短文本往往需要等待 3 到 4 秒，長文本等待時(shí)間會增加到 5 到 6 秒，但準(zhǔn)確率、自然斷句和口語規(guī)整表現(xiàn)不錯(cuò)。

但無論是哪一款，整體的語音輸入準(zhǔn)確性都有了大幅的進(jìn)步，并且覆蓋桌面端和手機(jī)端。

圖片來源：雷科技

效果也很明顯，過去半年我在室外、家里很多時(shí)候就是使用輸入法進(jìn)行語音輸入。從我個(gè)人的使用來看，即便我的普通話并不標(biāo)準(zhǔn)，大部分內(nèi)容依然能夠準(zhǔn)確識別，偶爾還是會有錯(cuò)誤識別需要修改，但頻率已經(jīng)低到不會打斷思路。

總結(jié)下，大模型補(bǔ)上了關(guān)鍵的基礎(chǔ)。以前的語音輸入更像聽寫員，目標(biāo)是把聲音轉(zhuǎn)成文字。現(xiàn)在的 AI 輸入法開始理解整句話。它會根據(jù)上下文糾正同音字，自動(dòng)補(bǔ)標(biāo)點(diǎn)、分段，去掉「嗯」「啊」「那個(gè)」等口頭語，還會處理說話時(shí)的重復(fù)和自我修正。用戶說出來的是一團(tuán)帶著口癖的原始想法，屏幕上出現(xiàn)的已經(jīng)是一段可以直接發(fā)送的文字。

這一下，差距就出來了。

另一方面，在 AI 技術(shù)進(jìn)步的基礎(chǔ)上，語音輸入優(yōu)勢還是太誘人了，最直接的就是輸入負(fù)擔(dān)的降低。

回想下我們?nèi)粘４蜃郑枰存I盤、選字、處理錯(cuò)別字，腦子里的想法要經(jīng)過手指再落到屏幕上。相比之下，說話更接近日常交流，人想到哪里就能講到哪里。尤其在戶外走路時(shí)，這種差距會被迅速放大。我可以看著前面的路繼續(xù)輸入，不需要一直低頭盯著屏幕，心理上也少了很多擔(dān)心。

圖片來源：雷科技

效率優(yōu)勢也早有研究驗(yàn)證。斯坦福大學(xué)、百度等研究團(tuán)隊(duì) 2016 年在實(shí)驗(yàn)室條件下比較手機(jī)語音和鍵盤輸入，普通話語音錄入速度約為每分鐘 123 個(gè)詞，拼音鍵盤約為 43 個(gè)詞，前者接近后者的 2.9 倍。當(dāng)然，實(shí)驗(yàn)室里的短文本不能直接代表地鐵、街道和辦公室等真實(shí)環(huán)境，但它至少解釋了語音輸入的天然上限——只要識別足夠準(zhǔn)，人說話通常比在手機(jī)上敲字快得多。

此外，語音輸入（文字）比起純語音對接收端更「友好」，不只是微信好友，還有備忘錄內(nèi)容的回看，各種 APP 和網(wǎng)站，以及 AI 交互的輸入等。需要特別指出的是，尤其是相對復(fù)雜的輸入往往需要我們停下、思考，基于前文繼續(xù)輸入，純語音的效率和體驗(yàn)遠(yuǎn)不如語音輸入這種交互形式。

再有，前文也提到了即便有了很大的提升，不管打字還是語音輸入都不可避免會有一些錯(cuò)誤出現(xiàn)，但都能比較方便地進(jìn)行修改。

能力可以很多，交互必須很輕

雖然很多時(shí)候豆包會被調(diào)侃只剩下情緒價(jià)值，但不可否認(rèn)的是，豆包在中文語音輸入、輸出上的優(yōu)勢非常大，在 BAT 三家中也更早將這種優(yōu)勢轉(zhuǎn)化到輸入法的「語音輸入」上，在去年 11 月推出了豆包輸入法。

不過真具體到「手機(jī)輸入法」的產(chǎn)品體驗(yàn)，豆包輸入法作為新兵還是有不少的改進(jìn)空間。

尤其對比微信輸入法這類比較成熟的輸入法產(chǎn)品，豆包輸入法雖然基礎(chǔ)功能、設(shè)置選項(xiàng)都大差不差，都有聯(lián)想詞推薦、剪貼板、驗(yàn)證碼填充等功能，甚至還支持雙拼，也推出了桌面和手機(jī)雙端，但卻缺少了跨設(shè)備粘貼同步（包括個(gè)人詞庫、圖片），還有換機(jī)助手等功能。

要知道，豆包輸入法目前既沒有微信輸入法的匹配碼機(jī)制，也沒有其他主流輸入法的賬號體系。

再加上微信輸入法本身也很出色的語音輸入表現(xiàn)，所以我仍然主用微信輸入法。

AI 不是也不應(yīng)該成為我們選擇產(chǎn)品的唯一因素。反過來，我也希望看到接下來上線的千問輸入法 APP 會有很好的產(chǎn)品體驗(yàn)。一方面，千問在電腦端已經(jīng)證明它在語音輸入上也有很強(qiáng)的優(yōu)勢，如果這些能力原樣來到手機(jī)，千問輸入法至少會有一張不錯(cuò)的入場券。

但一款每天被調(diào)用數(shù)百次的手機(jī)輸入法，不能只靠模型秀肌肉。手機(jī)和電腦的詞庫、常用語、剪貼板能否同步，語音啟動(dòng)能不能足夠快，是否支持實(shí)時(shí)轉(zhuǎn)寫；長文本整理的力度能否讓用戶選擇，避免 AI 過度改寫原意，以及弱網(wǎng)和離線狀態(tài)下還能不能穩(wěn)定工作。

在 AI 語音輸入之外，這些也在很大程度上影響今天輸入法的體驗(yàn)。就像喬布斯說過的那句，「你必須先從用戶出發(fā)，在反推需要什么技術(shù)。」技術(shù)可以提供可能性，但最終的用戶體驗(yàn)，還是要回到產(chǎn)品設(shè)計(jì)和細(xì)節(jié)上。

前幾年的輸入法 AI 化就恰恰相當(dāng)，很多產(chǎn)品只是從技術(shù)出發(fā)，很容易把問答、翻譯、寫作、搜索和智能體一股腦地塞進(jìn)鍵盤。但輸入法的使用邏輯和 AI 聊天工具不同，用戶每一次喚起鍵盤，大多只想快速寫完一句話，能力可以很多，交互必須很輕。否則，「全能」很容易變成一種臃腫。

輸入法終究是一件基礎(chǔ)工具，有用和好用之間加還有很多的設(shè)計(jì)和細(xì)節(jié)。

輸入法依然是離用戶意圖最近的入口應(yīng)用

字節(jié)、阿里、騰訊為什么都來做輸入法？

從用戶的角度看并不難理解。對我們每個(gè)人來說，輸入法都太近了。無論在微信聊天、淘寶搜索、釘釘辦公、瀏覽器搜索、小紅書評論，還是文檔寫作，只要用戶需要把想法交給手機(jī)，輸入法就有機(jī)會出現(xiàn)。它不屬于某一個(gè) APP，卻能跨過幾乎所有 APP，也是調(diào)用頻率最高的系統(tǒng)入口之一。

而大模型的加入，讓輸入法能夠處理更靠近意圖的一層：用戶想說什么、該怎么說、這句話是否需要翻譯、潤色、總結(jié)。語音的表達(dá)形式，更讓這個(gè)入口獲得了更多原始信息，能接觸語速、停頓。

對于字節(jié)，豆包輸入法可以把豆包的模型能力帶出豆包 APP，進(jìn)入聊天、搜索和辦公等更多場景。對于騰訊，微信輸入法連接微信社交、搜狗輸入法積累和混元模型，既有現(xiàn)成用戶，也有最豐富的中文交流場景。而對于阿里，千問輸入法有機(jī)會穿過電商、支付、地圖、辦公和內(nèi)容創(chuàng)作，把千問從一個(gè)需要主動(dòng)打開的 AI 助手，變成隨時(shí)可以調(diào)用的底層能力。

而從我自己的使用來看，語音輸入已經(jīng)跨過了「偶爾應(yīng)急」的階段，但它還替代不了所有鍵盤場景，辦公室里不方便開口，密碼和精確編輯仍然更適合手動(dòng)操作。至于在走路、快速回復(fù)和整理想法時(shí)，我越來越不愿意「古法手打」。

聲明：個(gè)人原創(chuàng)，僅供參考

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.