網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

訊飛首款 AI 眼鏡，用 40 克撬動(dòng) AI 工作流

2026-05-28 17:33:54　來源: 愛范兒

廣東舉報(bào)

分享至

2026 還沒過半，已經(jīng)有 30 多款 AI 眼鏡亮相了。

除了華為、阿里千問、Rokid、雷鳥、小米這些老玩家，連老板電器都推出 AI 烹飪眼鏡，京東方也做了騎行眼鏡……百鏡齊放，但大體上在圍著三件事卷：誰能做得更輕、誰的攝像頭更清晰、誰的鏡片上能塞進(jìn)更大更好的顯示屏。

熱鬧之下，有一個(gè)數(shù)據(jù)通常會(huì)被忽略。

目前主流電商平臺(tái)上，AI 眼鏡的退貨率高得驚人，普遍在 30% 左右，在沖動(dòng)消費(fèi)占大頭的直播渠道，退貨率甚至能飆到 40% 到 50%。

用戶因?yàn)樾迈r感下單，戴了幾天，默默點(diǎn)了退貨。銷量高開低走、退貨率居高不下，就是眾多 AI 眼鏡的「生命周期」。

說白了，嘗鮮期過去后，消費(fèi)者就會(huì)開始產(chǎn)生這樣的疑惑：戴上之后它到底能幫我干什么。

就在今天，科大訊飛在澳門發(fā)布了旗下首款 AI 眼鏡。這副 40 克的眼鏡沒有卷像素、卷全彩大屏、卷時(shí)尚聯(lián)名，把核心能力押注在一個(gè)看起來十分常見的能力上——翻譯。

但翻譯只是它的入口，不是終點(diǎn)。

發(fā)布會(huì)前夕，APPSO 和科大訊飛副總裁王瑋、穿戴設(shè)備業(yè)務(wù)部總經(jīng)理林會(huì)杰聊了聊。聊到后半段，話題從具體的產(chǎn)品技術(shù)轉(zhuǎn)移到了一個(gè)更大的命題上：AI 眼鏡下半場的關(guān)鍵，到底在硬件層面還是在 AI 工作流？

AI 眼鏡的「奇點(diǎn)」，是讓人愿意一直戴

百鏡大戰(zhàn)之后，在現(xiàn)有供應(yīng)鏈里攢出一款智能眼鏡真不難，華強(qiáng)北兩周就能給你出一個(gè)樣機(jī)。但難的是，你怎么給用戶一個(gè)「一直佩戴」的理由。

對(duì)于第一次做 AI 眼鏡的訊飛來說，這也是個(gè)繞不開的坎。

王瑋跟 APPSO 聊起訊飛做 AI 眼鏡的起點(diǎn)，其實(shí)源于一個(gè)非常具體的畫面：你想啊，翻譯機(jī)在展會(huì)、小型商務(wù)洽談這些場景里是很好用的，甚至公司共用一臺(tái)就夠。但總有一些時(shí)刻，當(dāng)你在國外旅游或者某些場合，你不方便掏出設(shè)備和低頭看屏幕，不想等翻譯結(jié)果打斷說話的自然節(jié)奏。

你希望交流是「沉浸式」的，眼神始終對(duì)著彼此，對(duì)話順暢流動(dòng)，翻譯像空氣一樣感受不到存在。這副眼鏡的起點(diǎn)，就是用戶對(duì)那種「無感」體驗(yàn)的期待。

這種「物理中斷」，是訊飛看了無數(shù)個(gè)翻譯機(jī)用戶的真實(shí)反饋后，攢下來的痛點(diǎn)。做 AI 眼鏡的公司可以一夜之間冒出來，但做翻譯的底子，真的沒法速成。

訊飛翻譯機(jī)賣了 100 萬臺(tái)、翻譯了 10 億次。訊飛同傳跑了 42 萬場國際會(huì)議，覆蓋 50 多個(gè)國家，觸達(dá) 4 億觀眾，連續(xù) 8 年服務(wù)全國兩會(huì)。

這些數(shù)字沉淀下來的不只是算法，還有對(duì)真實(shí)場景里那些瑣碎問題的感知：什么時(shí)候用戶會(huì)嫌翻譯慢，什么場景下手持設(shè)備讓人尷尬，什么噪音條件會(huì)讓準(zhǔn)確率斷崖……

去年 10 月訊飛已經(jīng)推出了一款翻譯耳機(jī)。耳機(jī)驗(yàn)證了兩件事：用戶確實(shí)需要釋放雙手的穿戴式翻譯；端到端的同傳在穿戴設(shè)備上是跑得通的，反應(yīng)速度能掐在 2 秒以內(nèi)。

但耳機(jī)只管耳朵，在林會(huì)杰看來，耳機(jī)的局限在于它是一個(gè)「聽覺」設(shè)備（現(xiàn)在也開始加攝像頭了），眼鏡則可以增加視覺的模態(tài)，多種模態(tài)疊加在一起，跨語言溝通的信息輸入就豐富多了。

說白了，眼鏡上有攝像頭可以拍照翻譯，有顯示可以投射字幕讓你不用低頭看手機(jī)，還能放更多的麥克風(fēng)做定向降噪。

用王瑋的話說就是，「眼鏡離人的眼睛、耳朵、嘴巴最近，它是物理世界與數(shù)字世界天然的橋梁，讓翻譯像呼吸一樣自然發(fā)生。」

而到了 2026 年，供應(yīng)鏈成本開始被拉下來了，國補(bǔ)也首次把智能眼鏡納了進(jìn)來，再加上星火 X2 大模型云端翻譯能力的提升，天時(shí)地利湊齊了。

林會(huì)杰倒挺坦率：「我們選擇這個(gè)節(jié)點(diǎn)，是因?yàn)榭吹搅嗽鏊俨艅倓傞_始。」王瑋更直接：我們不想用「iPhone 時(shí)刻」這個(gè)詞，但實(shí)際上就是這個(gè)意思，眼鏡馬上到了奇點(diǎn)臨近的時(shí)候。

40 克，一道系統(tǒng)工程題

訊飛這款 AI 眼鏡，我戴上之后第一反應(yīng)是比想象中輕。它集成了微型顯示屏、攝像頭、5+1 麥克風(fēng)矩陣、喇叭，但整機(jī)重量被死死卡在了 40 克。

這個(gè)數(shù)字可能很多人沒概念，我們來橫向?qū)Ρ纫幌拢?/p>

Meta Ray-Ban 是 49 克，但它沒有顯示屏；
Rokid Glasses 也是 49 克，帶顯示，但比訊飛重了將近 25%；
華為 AI 眼鏡確實(shí)輕，35.5 克，但它沒有顯示屏。

在「帶顯示屏」的智能眼鏡陣營里，訊飛目前幾乎做到了行業(yè)最輕。

為什么非得是 40 克？林會(huì)杰說，這個(gè)數(shù)字是他們用模擬仿真和海量調(diào)研死磕出來的。歐美人的頭型和體型對(duì)重量的鈍感力比較強(qiáng)，Meta 做到 50 多克他們依然覺得能接受。但亞洲人的顱骨結(jié)構(gòu)和鼻梁高度不同，對(duì)重量極度敏感。

對(duì)于中國用戶來說，45 克是一道分水嶺，超過這個(gè)分量，戴久了就會(huì)有明顯的壓迫感。40 克，是長時(shí)間佩戴的「舒適閾值」。

為了摳掉這幾克，團(tuán)隊(duì)在工程上跟供應(yīng)鏈磨了很久。最關(guān)鍵的一招，是用樹脂鏡片替代了傳統(tǒng)的玻璃鏡片。

傳統(tǒng)近視眼鏡早就是樹脂的天下了，但為什么智能眼鏡一直不用？因?yàn)楣に囂阈膽B(tài)了。智能眼鏡的鏡片需要做「全貼合」，把顯示層和鏡片壓在一起。樹脂材料在成型和加熱時(shí)極易產(chǎn)生微小的氣泡，膠水一旦有一絲一毫的空隙，光線的折射曲率就偏了，整個(gè)鏡片就廢了，良率控制比玻璃難得多。

林會(huì)杰透露，訊飛應(yīng)該是行業(yè)里第一個(gè)在帶顯示的智能眼鏡上把全貼合樹脂工藝跑通的。研發(fā)過程中經(jīng)歷了非常多嘗試和失敗，才最終把樹脂材料用在了顯示鏡片上，但回報(bào)是巨大的，單靠鏡片這一項(xiàng)，就比玻璃方案輕了 30% 到 40%。

再加上定制的 0.15CC 微型光機(jī)、微型攝像頭模組，鏡框鏡腿一體成型。芯片選型和算法做了深度耦合：同樣的功能別家可能要 100mAh 電池，訊飛可能 50mAh 就夠了。

所以最后我們看到的訊飛 AI 眼鏡，整機(jī)重量更輕，續(xù)航卻沒打折。

這是一道系統(tǒng)工程題，沒有捷徑，每一環(huán)都要跟供應(yīng)鏈反復(fù)磨合良品率。樹脂鏡片、微型光機(jī)、低功耗芯片、算法-硬件耦合，哪一環(huán)掉鏈子，重量都得回到 50 克以上。

唇動(dòng)識(shí)別降噪，用眼睛幫耳朵聽

翻譯固然是訊飛的舒適區(qū)，但這副眼鏡上，訊飛還首發(fā)了一個(gè)有點(diǎn)科幻的技術(shù)——唇動(dòng)識(shí)別降噪，這是多模態(tài)降噪系統(tǒng)的核心部分。

這是唇動(dòng)識(shí)別降噪首次搭載到 AI 眼鏡上，實(shí)現(xiàn)邏輯是眼鏡的前置攝像頭會(huì)死死鎖定對(duì)面說話人的嘴唇。同時(shí)，眼鏡上的 5 顆氣導(dǎo)麥克風(fēng)和 1 顆骨傳導(dǎo)麥克風(fēng)組成了一個(gè)六通道的音頻流。

系統(tǒng)實(shí)時(shí)通過「看到誰的嘴在動(dòng)」，來輔助判斷「該聽誰的聲音」，從而在嘈雜的多人混聲中，精準(zhǔn)地把目標(biāo)人物的語音「摳」出來。

這就實(shí)現(xiàn)了「看誰翻誰」的效果，你的眼鏡盯著誰，耳邊響起的、鏡片上跳出來的，就是誰的翻譯字幕。

這個(gè)技術(shù)直接決定很多場景的翻譯質(zhì)量，因?yàn)榉g準(zhǔn)不準(zhǔn)，有一個(gè)重要的前提聽得清不清。

安靜的會(huì)議室里，其實(shí)目前的翻譯軟硬件都可以較好處理交流問題。但訊飛 AI 眼鏡重要的一個(gè)用戶群是商務(wù)人士，他們真正需要用到的翻譯場景是什么？是展會(huì)、商務(wù)酒會(huì)、機(jī)場，環(huán)境噪音隨便都能 80 到 90 分貝。傳統(tǒng)翻譯工具在這種環(huán)境下，準(zhǔn)確率直接掉進(jìn)馬里亞納海溝。

高噪場景下，唇動(dòng)識(shí)別降噪讓識(shí)別準(zhǔn)確率提升了 50% 以上。林會(huì)杰解釋說，這并不是單純看口型，它融合了聲源位置增強(qiáng)、目標(biāo)人鎖定等一整套多模態(tài)降噪系統(tǒng)，各路信號(hào)在實(shí)際使用中自動(dòng)協(xié)同。

這個(gè)能力也不是拍腦袋想出來的。訊飛在大型會(huì)議系統(tǒng)和汽車智能座艙里，搞這種多通道語音分離和多模態(tài)降噪已經(jīng)很多年了，在 CHiME 國際語音分離大賽上拿過 6 連冠。

王瑋還給我們分享了一個(gè)幾年前的內(nèi)部 Demo：幾個(gè)研究員同時(shí)講話，人耳完全分不清，系統(tǒng)把每個(gè)人的聲音干凈利落分離出來，誰說了什么都清清楚楚。

這事兒有趣的地方在于，以前開大會(huì)，你有足夠的物理空間塞麥克風(fēng)，有服務(wù)器的算力，有插座供電。現(xiàn)在，你要把這套復(fù)雜的視覺-音頻融合算法，塞進(jìn)一副 40 克、算力和功耗被極度壓榨的眼鏡里。

王瑋覺得，這恰恰是訊飛在硬件上秀出的「肌肉」：怎么把大設(shè)備上的硬核算法做高倍率的壓縮，移植到小尺寸、輕量化的移動(dòng)端側(cè)，而且還能離線實(shí)時(shí)處理多路語音數(shù)據(jù)。

訊飛做硬件的路徑是「大設(shè)備驗(yàn)證、小設(shè)備遷移」。在會(huì)議系統(tǒng)和汽車上跑通的算法壓縮到眼鏡端側(cè)。唇動(dòng)識(shí)別降噪需要視覺-音頻配對(duì)數(shù)據(jù)、端側(cè)實(shí)時(shí)處理能力、多麥克風(fēng)硬件的聯(lián)合調(diào)優(yōu)，單靠現(xiàn)成算法集成難以實(shí)現(xiàn)。

降噪的準(zhǔn)確性直接決定翻譯的準(zhǔn)確性，這也是整條工作流的第一道關(guān)卡。

「全能翻譯」背后的基礎(chǔ)設(shè)施

聽得清之后，才是譯得準(zhǔn)的問題。

訊飛 AI 眼鏡支持 122 種語言的實(shí)時(shí)互譯，劃分了同聲傳譯（聽演講）、面對(duì)面翻譯（商務(wù)洽談）、通話翻譯（跨國電話）和線上同傳（接騰訊會(huì)議或 Zoom）等四種模式，攝像頭還能直接拍 PPT，做外文資料翻譯。

在現(xiàn)場體驗(yàn)中最讓我覺得有意思的是通話翻譯。

這大概是目前市面上唯一一款能在你打電話時(shí)，同時(shí)幫你做跨國翻譯和記錄的眼鏡。它的路徑是這樣的：眼鏡通過藍(lán)牙掛載在手機(jī)上，捕捉到電話那頭的英語，端到端同傳模型全自動(dòng)翻譯，再把你的中文回答翻譯成英文頂回去，延遲在秒級(jí)。

也就是說，你在電話這頭說中文，老外在那頭聽到的是你的音色克隆出來的英文。電話一掛，眼鏡甚至能幫你把一份結(jié)構(gòu)化的會(huì)議紀(jì)要發(fā)你。

過去，傳統(tǒng)的翻譯系統(tǒng)是「老三樣」：語音識(shí)別（ASR）→文本翻譯（MT）→語音合成（TTS）。這套方案最大的毛病就是延遲大，而且每過一個(gè)環(huán)節(jié)，信息的「語義損失」就多一層。

訊飛這次在眼鏡上搭載端到端的語音同傳大模型，跳過了中間的文本轉(zhuǎn)譯步驟，直接實(shí)現(xiàn)「語音進(jìn)、語音出」，把首字響應(yīng)時(shí)間壓進(jìn)了 2 秒。云端撐腰的是星火 X2 模型（293B 參數(shù)的 MoE 架構(gòu)，基于華為昇騰訓(xùn)練）。

林會(huì)杰說，他們把翻譯場景切分得極其細(xì)微，因?yàn)椴煌瑘鼍跋滦枰男袠I(yè)知識(shí)庫和降噪模式是完全不一樣的。

訊飛這款眼鏡在翻譯功能上花的功夫，這有點(diǎn)像手機(jī)行業(yè)卷影像，拍照功能誰都有，但我有 2 億像素，有10 倍長焦，有4K live 圖，甚至能覆蓋專業(yè)攝影場景。

翻譯之后，AI 工作流才開始

到了這一步，你會(huì)發(fā)現(xiàn)，訊飛想做的已經(jīng)不只是「翻譯工具」了。這大概也是為什么它不叫「翻譯眼鏡」，而被視「眼前的超級(jí) AI 助理」。

林會(huì)杰認(rèn)為，「眼鏡更像是一個(gè)戴在眼前的超級(jí)計(jì)算機(jī)，帶有顯示、攝像頭、語音能力，它的配置跟手機(jī)、PC 基本一樣。」

承載這層能力的是訊飛的 GlassClaw，這個(gè) Agent 能調(diào)用大模型能力、接入生態(tài)服務(wù)、做多模態(tài)理解，把從聽懂到干活的整個(gè)過程打通，同時(shí)也支持 OpenClaw 等第三方 Agent 接入。

你沒看錯(cuò)，這還是一副「龍蝦」眼鏡。

林會(huì)杰分享了他自己使用 GlassClaw 的日常工作流：他出門不用頻繁掏手機(jī)。在路上走著，可以直接用語音喚醒 GlassClaw，讓它調(diào)取手機(jī)通訊錄、找客戶撥號(hào)，電話接通自動(dòng)開翻譯。

跟客戶面對(duì)面聊天時(shí)，突然需要查閱之前的某份合同紀(jì)要，直接盲操吩咐眼鏡，眼鏡會(huì)去檢索他的電腦資料，提取出要點(diǎn)并同步到鏡片上。

甚至開完會(huì)后，眼鏡自動(dòng)做完多模態(tài)的角色區(qū)分（誰說了什么），輸出結(jié)構(gòu)化紀(jì)要，他直接語音：「把紀(jì)要以郵件形式發(fā)給項(xiàng)目組，并把下周三的復(fù)盤會(huì)同步到日歷上。」

如果你也養(yǎng)過蝦對(duì)這些功能肯定不陌生，只不過這次交互發(fā)生在你的臉上。

當(dāng)初讓AI 眼鏡出圈的提詞器功能，在這款眼鏡里也迎來升級(jí)。

訊飛 AI 眼鏡的智能提詞器功能做到了語義跟隨，說到哪跟到哪，不再是機(jī)械按速度滾動(dòng)，可以做自然的智能語義理解和跟隨。配套的充電膠囊可以當(dāng)遙控器，按鍵切換和暫停文稿。

這就是 AstronClaw 架構(gòu)在底層玩的「端-邊-云」三級(jí)協(xié)同：眼鏡端側(cè)負(fù)責(zé)環(huán)境感知和預(yù)處理，邊緣側(cè)做決策，復(fù)雜的推理丟給云端的星火 X2。GlassClaw 基于訊飛自研的 Agent 能力，同時(shí)也支持 OpenClaw 等第三方 Agent 接入。

王瑋的判斷是，未來的眼鏡不再只是很簡單的一副眼鏡，而是你穿戴最方便的一個(gè)隨身助理。

市場上單做翻譯或單做 AI 助手的產(chǎn)品不少，但把「翻譯 + 記錄 + 紀(jì)要 + 跨端執(zhí)行」串成順滑的工作流，需要語音、翻譯、大模型、智能體（Agent）四種底層能力同時(shí)在線，且環(huán)環(huán)相扣。

訊飛這種全棧的技術(shù)能力，恰好在眼鏡這個(gè)載體上找到了合適的閉環(huán)。

AI 眼鏡的下半場，拼的是什么

過去兩年，AI 浪潮裹挾著整個(gè)硬件行業(yè)尋找那個(gè)所謂的「Next Gen」入口。

AI Pin 翻車了，各種智能吊墜無疾而終，雖然 AI 硬件的產(chǎn)品形態(tài)和技術(shù)路線各異，但行業(yè)也逐漸形成一些共識(shí)： AI 需要眼睛，它必須能實(shí)時(shí)感知人類所處的三維物理世界。

AI 眼鏡未必不是最終形態(tài)，但它是目前唯一能夠全天候、第一視角承載視覺與聽覺輸入的形態(tài)。

王瑋在采訪里提到一個(gè)挺有意思的預(yù)判：「未來的數(shù)字生活三件套，大概率是電腦、手機(jī)和眼鏡。眼鏡不是手機(jī)的配件，它自己就是一臺(tái)架在鼻梁上的獨(dú)立主機(jī)。」

眼鏡天然適合做連接物理世界和數(shù)字世界的設(shè)備。而且硬件本身還有很長的迭代空間：顯示會(huì)從單色走向全彩、從 2K 走向 4K；攝像頭和麥克風(fēng)還會(huì)向 AI 原生的 token 編碼方式升級(jí)。王瑋說這些技術(shù)路徑已經(jīng)開始有比較明晰的發(fā)展方向了。

林會(huì)杰透露，訊飛的第二代 AI 眼鏡已經(jīng)在規(guī)劃中，最快 2026 年秋季能看到，面向更多不同人群，也在摸索一些細(xì)分的垂直場景。

過去一年 APPSO 測過、寫過不少 AI 眼鏡。回頭看百鏡大戰(zhàn)，行業(yè)其實(shí)已經(jīng)分化出了兩條不同的路：

一條是「做最好的眼鏡，讓 AI 成為加分項(xiàng)」。 Meta Ray-Ban 是這個(gè)邏輯：用時(shí)尚設(shè)計(jì)和品牌文化來對(duì)沖用戶對(duì) AI 能力的低頻剛需。

另一條是「做更深的 AI 工作流，讓眼鏡成為新的電腦」。訊飛選擇的就是這條路。兩條路指向不同的競爭維度，但后一條更難走，因?yàn)樗竽阃瑫r(shí)具備硬件工程能力和 AI 全棧能力，缺一不可。

AI 眼鏡的下半場，真正的分水嶺在于，誰能把 AI 揉進(jìn)高度細(xì)分的真實(shí)場景里，替用戶把一件件瑣碎任務(wù)給辦了。

讓眼鏡回歸眼鏡， AI 老老實(shí)實(shí)當(dāng)「牛馬」。

最后能留下來的設(shè)備，我想大概是這樣的：當(dāng)你摘下它的時(shí)候，會(huì)突然覺得眼前的世界變得沉重而低效。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.