![]()
2026 還沒過半,已經(jīng)有 30 多款 AI 眼鏡亮相了。
除了華為、阿里千問、Rokid、雷鳥、小米這些老玩家,連老板電器都推出 AI 烹飪眼鏡,京東方也做了騎行眼鏡……百鏡齊放,但大體上在圍著三件事卷:誰能做得更輕、誰的攝像頭更清晰、誰的鏡片上能塞進(jìn)更大更好的顯示屏。
熱鬧之下,有一個(gè)數(shù)據(jù)通常會(huì)被忽略。
目前主流電商平臺(tái)上,AI 眼鏡的退貨率高得驚人,普遍在 30% 左右,在沖動(dòng)消費(fèi)占大頭的直播渠道,退貨率甚至能飆到 40% 到 50%。
用戶因?yàn)樾迈r感下單,戴了幾天,默默點(diǎn)了退貨。銷量高開低走、退貨率居高不下,就是眾多 AI 眼鏡的「生命周期」。
說白了,嘗鮮期過去后,消費(fèi)者就會(huì)開始產(chǎn)生這樣的疑惑:戴上之后它到底能幫我干什么。
就在今天,科大訊飛在澳門發(fā)布了旗下首款 AI 眼鏡。這副 40 克的眼鏡沒有卷像素、卷全彩大屏、卷時(shí)尚聯(lián)名,把核心能力押注在一個(gè)看起來十分常見的能力上——翻譯。
![]()
但翻譯只是它的入口,不是終點(diǎn)。
發(fā)布會(huì)前夕,APPSO 和科大訊飛副總裁王瑋、穿戴設(shè)備業(yè)務(wù)部總經(jīng)理林會(huì)杰聊了聊。聊到后半段,話題從具體的產(chǎn)品技術(shù)轉(zhuǎn)移到了一個(gè)更大的命題上:AI 眼鏡下半場的關(guān)鍵,到底在硬件層面還是在 AI 工作流?
AI 眼鏡的「奇點(diǎn)」,是讓人愿意一直戴
百鏡大戰(zhàn)之后,在現(xiàn)有供應(yīng)鏈里攢出一款智能眼鏡真不難,華強(qiáng)北兩周就能給你出一個(gè)樣機(jī)。但難的是,你怎么給用戶一個(gè)「一直佩戴」的理由。
對(duì)于第一次做 AI 眼鏡的訊飛來說,這也是個(gè)繞不開的坎。
王瑋跟 APPSO 聊起訊飛做 AI 眼鏡的起點(diǎn),其實(shí)源于一個(gè)非常具體的畫面:你想啊,翻譯機(jī)在展會(huì)、小型商務(wù)洽談這些場景里是很好用的,甚至公司共用一臺(tái)就夠。但總有一些時(shí)刻,當(dāng)你在國外旅游或者某些場合,你不方便掏出設(shè)備和低頭看屏幕,不想等翻譯結(jié)果打斷說話的自然節(jié)奏。
你希望交流是「沉浸式」的,眼神始終對(duì)著彼此,對(duì)話順暢流動(dòng),翻譯像空氣一樣感受不到存在。這副眼鏡的起點(diǎn),就是用戶對(duì)那種「無感」體驗(yàn)的期待。
這種「物理中斷」,是訊飛看了無數(shù)個(gè)翻譯機(jī)用戶的真實(shí)反饋后,攢下來的痛點(diǎn)。做 AI 眼鏡的公司可以一夜之間冒出來,但做翻譯的底子,真的沒法速成。
訊飛翻譯機(jī)賣了 100 萬臺(tái)、翻譯了 10 億次。訊飛同傳跑了 42 萬場國際會(huì)議,覆蓋 50 多個(gè)國家,觸達(dá) 4 億觀眾,連續(xù) 8 年服務(wù)全國兩會(huì)。
![]()
這些數(shù)字沉淀下來的不只是算法,還有對(duì)真實(shí)場景里那些瑣碎問題的感知:什么時(shí)候用戶會(huì)嫌翻譯慢,什么場景下手持設(shè)備讓人尷尬,什么噪音條件會(huì)讓準(zhǔn)確率斷崖……
去年 10 月訊飛已經(jīng)推出了一款翻譯耳機(jī)。耳機(jī)驗(yàn)證了兩件事:用戶確實(shí)需要釋放雙手的穿戴式翻譯;端到端的同傳在穿戴設(shè)備上是跑得通的,反應(yīng)速度能掐在 2 秒以內(nèi)。
但耳機(jī)只管耳朵,在林會(huì)杰看來,耳機(jī)的局限在于它是一個(gè)「聽覺」設(shè)備(現(xiàn)在也開始加攝像頭了),眼鏡則可以增加視覺的模態(tài),多種模態(tài)疊加在一起,跨語言溝通的信息輸入就豐富多了。
說白了,眼鏡上有攝像頭可以拍照翻譯,有顯示可以投射字幕讓你不用低頭看手機(jī),還能放更多的麥克風(fēng)做定向降噪。
用王瑋的話說就是,「眼鏡離人的眼睛、耳朵、嘴巴最近,它是物理世界與數(shù)字世界天然的橋梁,讓翻譯像呼吸一樣自然發(fā)生。」
而到了 2026 年,供應(yīng)鏈成本開始被拉下來了,國補(bǔ)也首次把智能眼鏡納了進(jìn)來,再加上星火 X2 大模型云端翻譯能力的提升,天時(shí)地利湊齊了。
![]()
林會(huì)杰倒挺坦率:「我們選擇這個(gè)節(jié)點(diǎn),是因?yàn)榭吹搅嗽鏊俨艅倓傞_始。」王瑋更直接:我們不想用「iPhone 時(shí)刻」這個(gè)詞,但實(shí)際上就是這個(gè)意思,眼鏡馬上到了奇點(diǎn)臨近的時(shí)候。
40 克,一道系統(tǒng)工程題
訊飛這款 AI 眼鏡,我戴上之后第一反應(yīng)是比想象中輕。它集成了微型顯示屏、攝像頭、5+1 麥克風(fēng)矩陣、喇叭,但整機(jī)重量被死死卡在了 40 克。
![]()
這個(gè)數(shù)字可能很多人沒概念,我們來橫向?qū)Ρ纫幌拢?/p>
- Meta Ray-Ban 是 49 克,但它沒有顯示屏;
- Rokid Glasses 也是 49 克,帶顯示,但比訊飛重了將近 25%;
- 華為 AI 眼鏡確實(shí)輕,35.5 克,但它沒有顯示屏。
在「帶顯示屏」的智能眼鏡陣營里,訊飛目前幾乎做到了行業(yè)最輕。
為什么非得是 40 克?林會(huì)杰說,這個(gè)數(shù)字是他們用模擬仿真和海量調(diào)研死磕出來的。歐美人的頭型和體型對(duì)重量的鈍感力比較強(qiáng),Meta 做到 50 多克他們依然覺得能接受。但亞洲人的顱骨結(jié)構(gòu)和鼻梁高度不同,對(duì)重量極度敏感。
對(duì)于中國用戶來說,45 克是一道分水嶺,超過這個(gè)分量,戴久了就會(huì)有明顯的壓迫感。40 克,是長時(shí)間佩戴的「舒適閾值」。
為了摳掉這幾克,團(tuán)隊(duì)在工程上跟供應(yīng)鏈磨了很久。最關(guān)鍵的一招,是用樹脂鏡片替代了傳統(tǒng)的玻璃鏡片。
![]()
傳統(tǒng)近視眼鏡早就是樹脂的天下了,但為什么智能眼鏡一直不用?因?yàn)楣に囂阈膽B(tài)了。智能眼鏡的鏡片需要做「全貼合」,把顯示層和鏡片壓在一起。樹脂材料在成型和加熱時(shí)極易產(chǎn)生微小的氣泡,膠水一旦有一絲一毫的空隙,光線的折射曲率就偏了,整個(gè)鏡片就廢了,良率控制比玻璃難得多。
林會(huì)杰透露,訊飛應(yīng)該是行業(yè)里第一個(gè)在帶顯示的智能眼鏡上把全貼合樹脂工藝跑通的。研發(fā)過程中經(jīng)歷了非常多嘗試和失敗,才最終把樹脂材料用在了顯示鏡片上,但回報(bào)是巨大的,單靠鏡片這一項(xiàng),就比玻璃方案輕了 30% 到 40%。
再加上定制的 0.15CC 微型光機(jī)、微型攝像頭模組,鏡框鏡腿一體成型。芯片選型和算法做了深度耦合:同樣的功能別家可能要 100mAh 電池,訊飛可能 50mAh 就夠了。
![]()
所以最后我們看到的訊飛 AI 眼鏡,整機(jī)重量更輕,續(xù)航卻沒打折。
這是一道系統(tǒng)工程題,沒有捷徑,每一環(huán)都要跟供應(yīng)鏈反復(fù)磨合良品率。樹脂鏡片、微型光機(jī)、低功耗芯片、算法-硬件耦合,哪一環(huán)掉鏈子,重量都得回到 50 克以上。
唇動(dòng)識(shí)別降噪,用眼睛幫耳朵聽
翻譯固然是訊飛的舒適區(qū),但這副眼鏡上,訊飛還首發(fā)了一個(gè)有點(diǎn)科幻的技術(shù)——唇動(dòng)識(shí)別降噪,這是多模態(tài)降噪系統(tǒng)的核心部分。
![]()
這是唇動(dòng)識(shí)別降噪首次搭載到 AI 眼鏡上,實(shí)現(xiàn)邏輯是眼鏡的前置攝像頭會(huì)死死鎖定對(duì)面說話人的嘴唇。同時(shí),眼鏡上的 5 顆氣導(dǎo)麥克風(fēng)和 1 顆骨傳導(dǎo)麥克風(fēng)組成了一個(gè)六通道的音頻流。
系統(tǒng)實(shí)時(shí)通過「看到誰的嘴在動(dòng)」,來輔助判斷「該聽誰的聲音」, 從而在嘈雜的多人混聲中,精準(zhǔn)地把目標(biāo)人物的語音「摳」出來。
這就實(shí)現(xiàn)了「看誰翻誰」的效果,你的眼鏡盯著誰,耳邊響起的、鏡片上跳出來的,就是誰的翻譯字幕。
這個(gè)技術(shù)直接決定很多場景的翻譯質(zhì)量,因?yàn)榉g準(zhǔn)不準(zhǔn),有一個(gè)重要的前提聽得清不清。
安靜的會(huì)議室里,其實(shí)目前的翻譯軟硬件都可以較好處理交流問題。但訊飛 AI 眼鏡重要的一個(gè)用戶群是商務(wù)人士,他們真正需要用到的翻譯場景是什么?是展會(huì)、商務(wù)酒會(huì)、機(jī)場,環(huán)境噪音隨便都能 80 到 90 分貝。傳統(tǒng)翻譯工具在這種環(huán)境下,準(zhǔn)確率直接掉進(jìn)馬里亞納海溝。
高噪場景下,唇動(dòng)識(shí)別降噪讓識(shí)別準(zhǔn)確率提升了 50% 以上。林會(huì)杰解釋說,這并不是單純看口型,它融合了聲源位置增強(qiáng)、目標(biāo)人鎖定等一整套多模態(tài)降噪系統(tǒng),各路信號(hào)在實(shí)際使用中自動(dòng)協(xié)同。
這個(gè)能力也不是拍腦袋想出來的。訊飛在大型會(huì)議系統(tǒng)和汽車智能座艙里,搞這種多通道語音分離和多模態(tài)降噪已經(jīng)很多年了,在 CHiME 國際語音分離大賽上拿過 6 連冠。
王瑋還給我們分享了一個(gè)幾年前的內(nèi)部 Demo:幾個(gè)研究員同時(shí)講話,人耳完全分不清,系統(tǒng)把每個(gè)人的聲音干凈利落分離出來,誰說了什么都清清楚楚。
這事兒有趣的地方在于,以前開大會(huì),你有足夠的物理空間塞麥克風(fēng),有服務(wù)器的算力,有插座供電。現(xiàn)在,你要把這套復(fù)雜的視覺-音頻融合算法,塞進(jìn)一副 40 克、算力和功耗被極度壓榨的眼鏡里。
![]()
王瑋覺得,這恰恰是訊飛在硬件上秀出的「肌肉」:怎么把大設(shè)備上的硬核算法做高倍率的壓縮,移植到小尺寸、輕量化的移動(dòng)端側(cè),而且還能離線實(shí)時(shí)處理多路語音數(shù)據(jù)。
訊飛做硬件的路徑是「大設(shè)備驗(yàn)證、小設(shè)備遷移」。在會(huì)議系統(tǒng)和汽車上跑通的算法壓縮到眼鏡端側(cè)。唇動(dòng)識(shí)別降噪需要視覺-音頻配對(duì)數(shù)據(jù)、端側(cè)實(shí)時(shí)處理能力、多麥克風(fēng)硬件的聯(lián)合調(diào)優(yōu),單靠現(xiàn)成算法集成難以實(shí)現(xiàn)。
降噪的準(zhǔn)確性直接決定翻譯的準(zhǔn)確性,這也是整條工作流的第一道關(guān)卡。
「全能翻譯」背后的基礎(chǔ)設(shè)施
聽得清之后,才是譯得準(zhǔn)的問題。
訊飛 AI 眼鏡支持 122 種語言的實(shí)時(shí)互譯,劃分了同聲傳譯(聽演講)、面對(duì)面翻譯(商務(wù)洽談)、通話翻譯(跨國電話)和線上同傳(接騰訊會(huì)議或 Zoom)等四種模式,攝像頭還能直接拍 PPT, 做外文資料翻譯。
![]()
在現(xiàn)場體驗(yàn)中最讓我覺得有意思的是通話翻譯。
這大概是目前市面上唯一一款能在你打電話時(shí),同時(shí)幫你做跨國翻譯和記錄的眼鏡。它的路徑是這樣的:眼鏡通過藍(lán)牙掛載在手機(jī)上,捕捉到電話那頭的英語,端到端同傳模型全自動(dòng)翻譯,再把你的中文回答翻譯成英文頂回去,延遲在秒級(jí)。
也就是說,你在電話這頭說中文,老外在那頭聽到的是你的音色克隆出來的英文。電話一掛,眼鏡甚至能幫你把一份結(jié)構(gòu)化的會(huì)議紀(jì)要發(fā)你。
過去,傳統(tǒng)的翻譯系統(tǒng)是「老三樣」:語音識(shí)別(ASR)→文本翻譯(MT)→語音合成(TTS)。這套方案最大的毛病就是延遲大,而且每過一個(gè)環(huán)節(jié),信息的「語義損失」就多一層。
訊飛這次在眼鏡上搭載端到端的語音同傳大模型,跳過了中間的文本轉(zhuǎn)譯步驟,直接實(shí)現(xiàn)「語音進(jìn)、語音出」,把首字響應(yīng)時(shí)間壓進(jìn)了 2 秒。云端撐腰的是星火 X2 模型(293B 參數(shù)的 MoE 架構(gòu),基于華為昇騰訓(xùn)練)。
![]()
林會(huì)杰說,他們把翻譯場景切分得極其細(xì)微,因?yàn)椴煌瑘鼍跋滦枰男袠I(yè)知識(shí)庫和降噪模式是完全不一樣的。
訊飛這款眼鏡在翻譯功能上花的功夫,這有點(diǎn)像手機(jī)行業(yè)卷影像,拍照功能誰都有,但我有 2 億像素,有10 倍長焦,有4K live 圖,甚至能覆蓋專業(yè)攝影場景。
翻譯之后,AI 工作流才開始
到了這一步,你會(huì)發(fā)現(xiàn),訊飛想做的已經(jīng)不只是「翻譯工具」了。這大概也是為什么它不叫「翻譯眼鏡」,而被視「眼前的超級(jí) AI 助理」。
林會(huì)杰認(rèn)為,「眼鏡更像是一個(gè)戴在眼前的超級(jí)計(jì)算機(jī),帶有顯示、攝像頭、語音能力,它的配置跟手機(jī)、PC 基本一樣。」
承載這層能力的是訊飛的 GlassClaw,這個(gè) Agent 能調(diào)用大模型能力、接入生態(tài)服務(wù)、做多模態(tài)理解,把從聽懂到干活的整個(gè)過程打通,同時(shí)也支持 OpenClaw 等第三方 Agent 接入。
![]()
你沒看錯(cuò),這還是一副「龍蝦」眼鏡。
林會(huì)杰分享了他自己使用 GlassClaw 的日常工作流:他出門不用頻繁掏手機(jī)。在路上走著,可以直接用語音喚醒 GlassClaw,讓它調(diào)取手機(jī)通訊錄、找客戶撥號(hào),電話接通自動(dòng)開翻譯。
跟客戶面對(duì)面聊天時(shí),突然需要查閱之前的某份合同紀(jì)要,直接盲操吩咐眼鏡,眼鏡會(huì)去檢索他的電腦資料,提取出要點(diǎn)并同步到鏡片上。
甚至開完會(huì)后,眼鏡自動(dòng)做完多模態(tài)的角色區(qū)分(誰說了什么),輸出結(jié)構(gòu)化紀(jì)要,他直接語音:「把紀(jì)要以郵件形式發(fā)給項(xiàng)目組,并把下周三的復(fù)盤會(huì)同步到日歷上。」
![]()
如果你也養(yǎng)過蝦對(duì)這些功能肯定不陌生,只不過這次交互發(fā)生在你的臉上。
當(dāng)初讓AI 眼鏡出圈的提詞器功能,在這款眼鏡里也迎來升級(jí)。
訊飛 AI 眼鏡的智能提詞器功能做到了語義跟隨,說到哪跟到哪,不再是機(jī)械按速度滾動(dòng),可以做自然的智能語義理解和跟隨。配套的充電膠囊可以當(dāng)遙控器,按鍵切換和暫停文稿。
![]()
這就是 AstronClaw 架構(gòu)在底層玩的「端-邊-云」三級(jí)協(xié)同:眼鏡端側(cè)負(fù)責(zé)環(huán)境感知和預(yù)處理,邊緣側(cè)做決策,復(fù)雜的推理丟給云端的星火 X2。GlassClaw 基于訊飛自研的 Agent 能力,同時(shí)也支持 OpenClaw 等第三方 Agent 接入。
王瑋的判斷是,未來的眼鏡不再只是很簡單的一副眼鏡,而是你穿戴最方便的一個(gè)隨身助理。
市場上單做翻譯或單做 AI 助手的產(chǎn)品不少,但把「翻譯 + 記錄 + 紀(jì)要 + 跨端執(zhí)行」串成順滑的工作流,需要語音、翻譯、大模型、智能體(Agent)四種底層能力同時(shí)在線,且環(huán)環(huán)相扣。
訊飛這種全棧的技術(shù)能力,恰好在眼鏡這個(gè)載體上找到了合適的閉環(huán)。
AI 眼鏡的下半場,拼的是什么
過去兩年,AI 浪潮裹挾著整個(gè)硬件行業(yè)尋找那個(gè)所謂的「Next Gen」入口。
AI Pin 翻車了,各種智能吊墜無疾而終,雖然 AI 硬件的產(chǎn)品形態(tài)和技術(shù)路線各異,但行業(yè)也逐漸形成一些共識(shí): AI 需要眼睛,它必須能實(shí)時(shí)感知人類所處的三維物理世界。
AI 眼鏡未必不是最終形態(tài),但它是目前唯一能夠全天候、第一視角承載視覺與聽覺輸入的形態(tài)。
王瑋在采訪里提到一個(gè)挺有意思的預(yù)判:「未來的數(shù)字生活三件套,大概率是電腦、手機(jī)和眼鏡。眼鏡不是手機(jī)的配件,它自己就是一臺(tái)架在鼻梁上的獨(dú)立主機(jī)。」
眼鏡天然適合做連接物理世界和數(shù)字世界的設(shè)備。而且硬件本身還有很長的迭代空間:顯示會(huì)從單色走向全彩、從 2K 走向 4K;攝像頭和麥克風(fēng)還會(huì)向 AI 原生的 token 編碼方式升級(jí)。王瑋說這些技術(shù)路徑已經(jīng)開始有比較明晰的發(fā)展方向了。
![]()
林會(huì)杰透露,訊飛的第二代 AI 眼鏡已經(jīng)在規(guī)劃中,最快 2026 年秋季能看到,面向更多不同人群,也在摸索一些細(xì)分的垂直場景。
過去一年 APPSO 測過、寫過不少 AI 眼鏡。回頭看百鏡大戰(zhàn),行業(yè)其實(shí)已經(jīng)分化出了兩條不同的路:
一條是「做最好的眼鏡,讓 AI 成為加分項(xiàng)」。 Meta Ray-Ban 是這個(gè)邏輯:用時(shí)尚設(shè)計(jì)和品牌文化來對(duì)沖用戶對(duì) AI 能力的低頻剛需。
另一條是「做更深的 AI 工作流,讓眼鏡成為新的電腦」。 訊飛選擇的就是這條路。兩條路指向不同的競爭維度,但后一條更難走,因?yàn)樗竽阃瑫r(shí)具備硬件工程能力和 AI 全棧能力,缺一不可。
AI 眼鏡的下半場,真正的分水嶺在于,誰能把 AI 揉進(jìn)高度細(xì)分的真實(shí)場景里,替用戶把一件件瑣碎任務(wù)給辦了。
讓眼鏡回歸眼鏡, AI 老老實(shí)實(shí)當(dāng)「牛馬」。
最后能留下來的設(shè)備,我想大概是這樣的:當(dāng)你摘下它的時(shí)候,會(huì)突然覺得眼前的世界變得沉重而低效。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.