上周,《讀佳》獨(dú)家報(bào)道了阿里千問團(tuán)隊(duì)即將推出一款手機(jī)輸入法,不同于之前集成在千問 PC 端的桌面輸入法組件,這次的千問輸入法將是一個(gè)獨(dú)立的手機(jī) APP。
BAT(字節(jié)跳動(dòng)、阿里巴巴、騰訊)都湊齊了。
微信輸入法從兩年前開始擁抱 AI,今年更是圍繞 AI 語音輸入進(jìn)行了多輪重大更新。核心圍繞語音輸入的豆包輸入法在去年底率先上線手機(jī)端,半年后又順勢推出桌面端。
至于千問,上個(gè)月剛在千問 PC 端上線 AI 語音輸入法,現(xiàn)在推出手機(jī)端也在情理之中,而且不用猜,產(chǎn)品也是核心圍繞「語音輸入」。
![]()
圖片來源:千問
而互聯(lián)網(wǎng)巨頭,不,應(yīng)該說 AI 巨頭對輸入法——尤其是對「語音輸入」的重視已經(jīng)是司馬昭之心,路人皆知。
很多人可能會疑惑,輸入法早就是一個(gè)成熟到不能再成熟的品類,九鍵、26 鍵、雙拼、五筆、手寫,該有的基本都有,搜狗、訊飛、百度等老玩家也經(jīng)營多年。大廠真有必要重新做一遍嗎?
答案當(dāng)然是有。
兩年前,雷科技寫過一篇《紛紛接入大模型,輸入法講起了 AI 新故事》,彼時(shí)各大輸入法都在接入大模型,進(jìn)行各種 AI 化嘗試,塞入大量 Chatbot 上已有 AI 功能,相當(dāng)簡單粗暴。
說實(shí)話,那些功能大部分都是在 FOMO 情緒下的盲目上馬,至少從雷科技編輯、周邊朋友的反饋來看,用戶并不想使用一個(gè)塞滿功能的輸入法,不論是在桌面還是手機(jī)上。
![]()
圖片來源:雷科技
但這一波「語音輸入」更有點(diǎn)返璞歸真,不再折騰各種花里胡哨的功能,而是回到「輸入」方式和體驗(yàn)上,重新用 AI 將輸入法再造一遍。
AI 語音輸入全面進(jìn)步,用嘴打字時(shí)代來了
必須要說的是,一年之前,我很少用語音輸入。
不是我不想用,畢竟說話肯定是比打字更輕松的一種輸入方式,尤其是在手機(jī)上。而究其根本,問題主要出在識別效果。說一句話,錯(cuò)幾個(gè)字;碰到不太標(biāo)準(zhǔn)的普通話、專有名詞或中英文混說,結(jié)果更容易跑偏。
結(jié)果就是,我原本想少打幾個(gè)字,最后卻要盯著屏幕逐句檢查,再移動(dòng)光標(biāo)修改。嘴上省下來的力氣,又被手動(dòng)糾錯(cuò)拿走了。這種體驗(yàn)特別容易勸退人。
簡言之,語音輸入只要錯(cuò)得足夠頻繁,用戶就會重新拿起鍵盤,因?yàn)榇蜃蛛m然慢,至少結(jié)果相對可控。
但現(xiàn)在的情況變了。一方面是 AI 技術(shù)帶來的變化,更準(zhǔn)確地說是語音識別和語言模型的進(jìn)步,很多豆包 APP 用戶應(yīng)該很早就會體會到,語音輸入已經(jīng)完全可以滿足 AI 交互的輸入要求。
不只是豆包輸入法。事實(shí)上,我最常用的手機(jī)/桌面輸入法還是微信輸入法,原因先按下不表,重點(diǎn)從去年底 iOS/Android 端的 3.0.0 更新開始,微信輸入法基本都在圍繞「語音輸入」進(jìn)行優(yōu)化迭代,又是全面升級語音輸入大模型、提升識別能力,又是優(yōu)化語音輸入體驗(yàn)。
在最近一輪更新中,微信輸入法全平臺版本再次升級了語音輸入大模型,也支持自動(dòng)去掉說話時(shí)的口水詞、智能加標(biāo)點(diǎn)/分段等特性。
![]()
圖片來源:微信
雷科技讀者可能之前也看到了一篇《語音輸入法大橫評:豆包/千問/搜狗/Typeless誰才是「最強(qiáng)嘴替」?》,我們對豆包輸入法、千問、搜狗輸入法和 Typeless 四款桌面端 AI 語音輸入工具做了橫評,這里不再贅述。
測試中,豆包采用實(shí)時(shí)轉(zhuǎn)寫,基本能做到邊說邊出字,前面暫時(shí)識別錯(cuò)誤的內(nèi)容還會隨著后文補(bǔ)充被重新修正。千問的輸出速度慢一些,短文本往往需要等待 3 到 4 秒,長文本等待時(shí)間會增加到 5 到 6 秒,但準(zhǔn)確率、自然斷句和口語規(guī)整表現(xiàn)不錯(cuò)。
但無論是哪一款,整體的語音輸入準(zhǔn)確性都有了大幅的進(jìn)步,并且覆蓋桌面端和手機(jī)端。
![]()
圖片來源:雷科技
效果也很明顯,過去半年我在室外、家里很多時(shí)候就是使用輸入法進(jìn)行語音輸入。從我個(gè)人的使用來看,即便我的普通話并不標(biāo)準(zhǔn),大部分內(nèi)容依然能夠準(zhǔn)確識別,偶爾還是會有錯(cuò)誤識別需要修改,但頻率已經(jīng)低到不會打斷思路。
總結(jié)下,大模型補(bǔ)上了關(guān)鍵的基礎(chǔ)。以前的語音輸入更像聽寫員,目標(biāo)是把聲音轉(zhuǎn)成文字。現(xiàn)在的 AI 輸入法開始理解整句話。它會根據(jù)上下文糾正同音字,自動(dòng)補(bǔ)標(biāo)點(diǎn)、分段,去掉「嗯」「啊」「那個(gè)」等口頭語,還會處理說話時(shí)的重復(fù)和自我修正。用戶說出來的是一團(tuán)帶著口癖的原始想法,屏幕上出現(xiàn)的已經(jīng)是一段可以直接發(fā)送的文字。
這一下,差距就出來了。
另一方面,在 AI 技術(shù)進(jìn)步的基礎(chǔ)上,語音輸入優(yōu)勢還是太誘人了,最直接的就是輸入負(fù)擔(dān)的降低。
回想下我們?nèi)粘4蜃郑枰存I盤、選字、處理錯(cuò)別字,腦子里的想法要經(jīng)過手指再落到屏幕上。相比之下,說話更接近日常交流,人想到哪里就能講到哪里。尤其在戶外走路時(shí),這種差距會被迅速放大。我可以看著前面的路繼續(xù)輸入,不需要一直低頭盯著屏幕,心理上也少了很多擔(dān)心。
![]()
圖片來源:雷科技
效率優(yōu)勢也早有研究驗(yàn)證。斯坦福大學(xué)、百度等研究團(tuán)隊(duì) 2016 年在實(shí)驗(yàn)室條件下比較手機(jī)語音和鍵盤輸入,普通話語音錄入速度約為每分鐘 123 個(gè)詞,拼音鍵盤約為 43 個(gè)詞,前者接近后者的 2.9 倍。當(dāng)然,實(shí)驗(yàn)室里的短文本不能直接代表地鐵、街道和辦公室等真實(shí)環(huán)境,但它至少解釋了語音輸入的天然上限——只要識別足夠準(zhǔn),人說話通常比在手機(jī)上敲字快得多。
此外,語音輸入(文字)比起純語音對接收端更「友好」,不只是微信好友,還有備忘錄內(nèi)容的回看,各種 APP 和網(wǎng)站,以及 AI 交互的輸入等。需要特別指出的是,尤其是相對復(fù)雜的輸入往往需要我們停下、思考,基于前文繼續(xù)輸入,純語音的效率和體驗(yàn)遠(yuǎn)不如語音輸入這種交互形式。
再有,前文也提到了即便有了很大的提升,不管打字還是語音輸入都不可避免會有一些錯(cuò)誤出現(xiàn),但都能比較方便地進(jìn)行修改。
能力可以很多,交互必須很輕
雖然很多時(shí)候豆包會被調(diào)侃只剩下情緒價(jià)值,但不可否認(rèn)的是,豆包在中文語音輸入、輸出上的優(yōu)勢非常大,在 BAT 三家中也更早將這種優(yōu)勢轉(zhuǎn)化到輸入法的「語音輸入」上,在去年 11 月推出了豆包輸入法。
不過真具體到「手機(jī)輸入法」的產(chǎn)品體驗(yàn),豆包輸入法作為新兵還是有不少的改進(jìn)空間。
尤其對比微信輸入法這類比較成熟的輸入法產(chǎn)品,豆包輸入法雖然基礎(chǔ)功能、設(shè)置選項(xiàng)都大差不差,都有聯(lián)想詞推薦、剪貼板、驗(yàn)證碼填充等功能,甚至還支持雙拼,也推出了桌面和手機(jī)雙端,但卻缺少了跨設(shè)備粘貼同步(包括個(gè)人詞庫、圖片),還有換機(jī)助手等功能。
要知道,豆包輸入法目前既沒有微信輸入法的匹配碼機(jī)制,也沒有其他主流輸入法的賬號體系。
![]()
再加上微信輸入法本身也很出色的語音輸入表現(xiàn),所以我仍然主用微信輸入法。
AI 不是也不應(yīng)該成為我們選擇產(chǎn)品的唯一因素。反過來,我也希望看到接下來上線的千問輸入法 APP 會有很好的產(chǎn)品體驗(yàn)。一方面,千問在電腦端已經(jīng)證明它在語音輸入上也有很強(qiáng)的優(yōu)勢,如果這些能力原樣來到手機(jī),千問輸入法至少會有一張不錯(cuò)的入場券。
但一款每天被調(diào)用數(shù)百次的手機(jī)輸入法,不能只靠模型秀肌肉。手機(jī)和電腦的詞庫、常用語、剪貼板能否同步,語音啟動(dòng)能不能足夠快,是否支持實(shí)時(shí)轉(zhuǎn)寫;長文本整理的力度能否讓用戶選擇,避免 AI 過度改寫原意,以及弱網(wǎng)和離線狀態(tài)下還能不能穩(wěn)定工作。
在 AI 語音輸入之外,這些也在很大程度上影響今天輸入法的體驗(yàn)。就像喬布斯說過的那句,「你必須先從用戶出發(fā),在反推需要什么技術(shù)。」技術(shù)可以提供可能性,但最終的用戶體驗(yàn),還是要回到產(chǎn)品設(shè)計(jì)和細(xì)節(jié)上。
前幾年的輸入法 AI 化就恰恰相當(dāng),很多產(chǎn)品只是從技術(shù)出發(fā),很容易把問答、翻譯、寫作、搜索和智能體一股腦地塞進(jìn)鍵盤。但輸入法的使用邏輯和 AI 聊天工具不同,用戶每一次喚起鍵盤,大多只想快速寫完一句話,能力可以很多,交互必須很輕。否則,「全能」很容易變成一種臃腫。
輸入法終究是一件基礎(chǔ)工具,有用和好用之間加還有很多的設(shè)計(jì)和細(xì)節(jié)。
輸入法依然是離用戶意圖最近的入口應(yīng)用
字節(jié)、阿里、騰訊為什么都來做輸入法?
從用戶的角度看并不難理解。對我們每個(gè)人來說,輸入法都太近了。無論在微信聊天、淘寶搜索、釘釘辦公、瀏覽器搜索、小紅書評論,還是文檔寫作,只要用戶需要把想法交給手機(jī),輸入法就有機(jī)會出現(xiàn)。它不屬于某一個(gè) APP,卻能跨過幾乎所有 APP,也是調(diào)用頻率最高的系統(tǒng)入口之一。
而大模型的加入,讓輸入法能夠處理更靠近意圖的一層:用戶想說什么、該怎么說、這句話是否需要翻譯、潤色、總結(jié)。語音的表達(dá)形式,更讓這個(gè)入口獲得了更多原始信息,能接觸語速、停頓。
對于字節(jié),豆包輸入法可以把豆包的模型能力帶出豆包 APP,進(jìn)入聊天、搜索和辦公等更多場景。對于騰訊,微信輸入法連接微信社交、搜狗輸入法積累和混元模型,既有現(xiàn)成用戶,也有最豐富的中文交流場景。而對于阿里,千問輸入法有機(jī)會穿過電商、支付、地圖、辦公和內(nèi)容創(chuàng)作,把千問從一個(gè)需要主動(dòng)打開的 AI 助手,變成隨時(shí)可以調(diào)用的底層能力。
而從我自己的使用來看,語音輸入已經(jīng)跨過了「偶爾應(yīng)急」的階段,但它還替代不了所有鍵盤場景,辦公室里不方便開口,密碼和精確編輯仍然更適合手動(dòng)操作。至于在走路、快速回復(fù)和整理想法時(shí),我越來越不愿意「古法手打」。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.