![]()
駐外之家 | 溫暖駐外人
數十萬駐外人都在關注
![]()
駐外之家人才網
www.zhuwaizhijia.com
![]()
阿拉伯語通話,有了同傳“翻譯官”
·文 / 馬力·
![]()
想象一下這個畫面:當你撥通一個跨國電話,對方說著流利的阿拉伯語,而你的手機里傳來的是實時中文同聲傳譯。這不是想象,而是華為5G新通話解決方案“同聲傳譯”在剛落幕的2026年世界移動通信大會現場的真實展現。憑借在AI通話領域的創新,我們與客戶攜手斬獲GTI(全球TD-LTE發展倡議)“創新產品與解決方案獎”。
作為5G時代通信服務的創新方向,5G新通話正通過AI與通話技術的深度融合,讓傳統通話從“聽得見”走向“交互、智能、可信”的多元場景。其中,“同傳”功能更是其智能服務的核心能力之一。不依賴終端硬件,普通手機即可使用,真正實現全民普惠,目前這個功能已在沙特阿拉伯的利雅得開放試點,為全球運營商話音業務在AI時代的轉型樹立了新標桿。
阿拉伯語雙向實時語音翻譯在全球舞臺上的亮相,繞不開一項關鍵且高難度的技術——阿拉伯語ASR(自動語音識別)。與主流語言相比,阿拉伯語的ASR面臨著語法規則復雜、標準語與日常口語差異巨大、高質量標注語料稀缺等多重挑戰。2023年,人工智能與媒體計算專業的我入職華為,加入了華為云核心網產品線的同傳攻堅團隊。我們從零起步,一步步攀上這座技術險峰。
阿拉伯語同傳的“三無”困局
“同聲傳譯”功能是5G新通話解決方案的戰略高地,多數海外運營商都將其視為必爭之地。2024年3月,云核心網產品線計劃攜手擁有豐富阿拉伯語語料的業界老牌大廠伙伴K合作,快速補齊這塊拼圖。
2025年4月,雖然已與合作方完成多輪駐場攻關,但同傳業務的準確率仍然未達到可用標準,公開發布前的版本評審未獲通過。緊接著,5月份的版本預審再遭否決。話音業務從未遇到過這樣的挫折,我們團隊的壓力瞬間頂到了天花板。
2025年6月,為了盡快取得技術競爭力突破,經過多次審視及匯報,產品線決定將同傳切換到自研這條路上。所有的壓力像潮水一樣涌進研發團隊,我被任命牽頭負責這個極具戰略意義的任務:從0到1牽頭攻堅阿拉伯語同聲傳譯系統中的ASR模塊。
團隊里沒人擁有同聲傳譯系統的實戰經驗或者阿拉伯語語言學知識,我們遭到了不少質疑。更大的壓力來自外部,很多人認為老牌大廠K都搞不定的事情,華為也不可能做到:“你們想做同傳,還是阿拉伯語的同傳?你們知道老牌大廠K在這個領域積累了多少年嗎?那可是‘語料霸權’啊。你們極短時間內能在競爭力上形成突破嗎?”
“三無”困局,赤裸裸地擺在面前:無數據、無經驗、無先例。我們手頭只有零星的公開學術語料和滿腔熱血。但這不是我第一次“跨界”:在北京大學求學十年,我先后攻讀數學本科、數計交叉學科碩士及計算機博士;加入公司后,我從數字人通信跨界到語音理解與生成。每一次清零、每一次從零開始,我似乎都在做同一件事:在學科與能力的交叉地帶,尋找那個看似不可能的答案。
全公司“尋寶”行動
攻堅初期,我們這支只有3個人的阿拉伯語同傳小隊,互相沉默的時間往往比討論多。大家盯著白板上大片空白的技術方案,鍵盤敲兩下又停住。作為牽頭人,我深知此刻不應沉溺焦慮,而是要穩住軍心和方向。退路已經被切斷,唯有迎難而上、全力破局。經過幾次頭腦風暴,團隊梳理出一條線索:雖然公司內沒有完整的阿拉伯語同傳項目經驗,但在相鄰領域似乎有可以借鑒的“秘籍”。
接下來幾個月,我的行程變成了“空中飛人”模式。在北京某伙伴的實驗室里,我一待就是一整天,與他們討論阿拉伯語合成算法的語料復檢細節;在華為杭州研究所里,我和專家們結合其他語種的經驗,協助構建起了自研的語料產線;在華為西安研究所里,兄弟部門為我們提供了寶貴的精標語料與豐富的訓練經驗;在華為上海研究所里,我們與技術團隊一起攻堅,構建推理優化技術棧……
我就像一個闖入了不同門派求藝的學徒,貪婪地吸收著一切可能與“阿拉伯語ASR”相關的內功心法。而吸收這些內心功法的過程,也讓我意識到:不能盲目摸索,必須先整合全公司資源,再結合阿拉伯語同傳的核心需求,設計出專屬方案。隨后,我們調整了思路:不執著于模仿別人,而是思考如何結合公司內各兄弟部門的優秀實踐經驗,打造自身技術棧,走出一條依托公司既有平臺能力、融合多技術領域優勢的創新之路。
于是,我們把從各方學到的經驗逐一梳理、融會貫通,打磨每一個方案細節,小至語料標注規范,大到模型訓練整體架構,每一套核心方案都結合團隊實際能力和項目需求進行反復推演和修改。
語料是ASR的基礎,其質量直接影響模型訓練的成功與否。我們首先動用了公司內所有可協調的資源,拿到了數千小時的基礎語料數據。然而,這還遠遠不夠,我們隨后針對語料的缺口設計了三條路線:一是利用我們現有模型和業界最新開源模型針對無標數據進行多專家聯合標注,提升語料數量與質量;二是針對易錯場景,運用TTS(語音合成算法)進行合成,而后通過ASR再進行交叉檢驗;三是參考領域頂級學術會議中關于ASR后訓練的方案,通過設計更有效的后訓練方法,減少對基礎數據的依賴程度。
鎖定語料目標后,我們沒有急于動手,而是先聚焦現有模型表現,希望將通道打通,避免發生堵塞“拖后腿”。我滿懷信心地訓練好了一版新模型,上線評測前,我自信滿滿:“這次的模型是我們擴充大量數據且完成了精訓,自測能力杠杠的,這次肯定能破記錄。”
然而,測評結果一出來,大家瞬間尷尬——WER(詞錯率)數值異常飆升。
“哪里出錯了?有沒有可能是測試樣本的問題,音質太差,雜音太多?”我戴上耳機,把音頻音量調到最大,反復聽了十幾遍。聲音清脆,沒有任何雜音。
我回想起之前參加的北京大學埃及籍教授Alaa Mamdouh Akef的講座,曾提到關于阿拉伯語的雙言現象、語言分布、文化特征與技術挑戰:“你們看到的只是字符,但阿拉伯語是活的。”我突然意識到,這很可能是標注的標準化問題。如果說英語標準化是整理一本印刷清晰的書籍,那阿拉伯語文本標準化,就如同破譯一部殘缺繁復的古老手抄典籍。我們面臨大面積缺失的元音、復雜的陰陽性變位、海量的同音字……這種標注層面間的復雜性,讓模型根本無法建立穩定的映射關系。
“計算資源有限,我們不能既要又要。”在多次激烈的復盤會上,我們反復討論,最后達成了一致:模型的能力邊界必須清晰,優先聲學,其次語義。經過與阿拉伯語專家、一線同事的多次溝通,我們明確了哪些標注會影響翻譯的準確性,并據此在訓練中去除了所有變音符號、剔除標點等與聲學特征不相干的標注,讓文本標注純粹服務于聲學映射。而這一舉動,也讓我們的模型終于向前邁出了第一步。
那段時間,各式各樣的“偽識別錯誤”層出不窮,很多超出了我們在內部實驗室假設數據完美時的想象,但抽絲剝繭、分類歸納后,我們越來越堅定最初的判斷:搞定文本標注規范與歸一化,就搞定了阿拉伯語ASR語料工程問題的一大半。也正是通過一次次深挖數據現場,我們的語料清洗方案變得更清晰和更聚焦。
一場針對噪聲的“特種兵”計劃
真正讓模型從“能用”走向“好用”的,是我們解決了噪聲場景下亂蹦字的問題。
當時,一線與測試部均反饋阿拉伯語ASR模型在噪聲場景下的“亂蹦字”問題嚴重。在安靜的實驗室測試間里,我們的阿拉伯語ASR模型表現得像個優雅的學者,吐字清晰、錯詞率極低。但一推到真實的現網測試中,它就變成了一個喋喋不休的幻覺制造機:明明用戶只是清了清嗓子,或者背景里經過了一輛狂按喇叭的汽車,屏幕上卻會莫名其妙地蹦出一長串無意義阿拉伯語短句,對端用戶也會接收到一串不明意義的英語,十分影響同傳功能的可用性。團隊再次達成共識:必須把“蹦字”這個問題摁住!
此后的日子,我們鉆進噪聲增訓的深海里。從噪聲特性分析、增訓策略設計到優化目標調整,我們一點一點摸索。我們對通用的數據增強方法做了阿拉伯語的適配:針對阿拉伯語輔音承載主要語義的特點,通過調整頻率掩碼的比例,避免過度掩蓋關鍵聲學特征;同時引入加權混合信噪比增強策略,按照真實場景的噪聲強度分布進行加權采樣,讓模型在訓練階段就能適應不同程度的噪聲干擾;另外,我們還設計了動態加噪策略,根據每次訓練的結果反饋到超參調優,不斷調整加噪強度。經過近兩個月的密集攻關,我們啃下了這塊硬骨頭:噪聲場景下的蹦字比例從超過1000字降低到40字以內。
本地高頻詞的準確率同樣磨人,這些詞對客戶而言是每天掛在嘴邊的日常用語,對模型而言卻偏偏最容易認錯。我們專門為它們設計了一套“特種兵”數據方案:先篩選,后多模型審核,再配合多音色高質量生成和多模態合成,最后對難例單獨進行監督微調、偏好優化與相對策略優化。每一個被我們“馴服”的高頻詞背后,都是成百上千次的推倒重來。
那段時間,我時常陷入一種奇特的“心流”狀態,思緒完全沉浸在阿拉伯語ASR的世界里,外界干擾似乎都被自動屏蔽。沖咖啡時,指尖碰觸熱水壺的瞬間,腦海就突然“蹦”出一個優化思路;睡覺前躺下閉眼幾秒,白天調試無果的難題,忽然浮現出被忽略的邊界條件……每每這時,我會立刻抓起手機記錄,忍不住分享在團隊群里。而屏幕那頭,總有同樣沉浸在攻堅中的伙伴呼應,那份彼此同頻的專注,成了深夜里最溫暖的光。
就這樣,我們用代碼、公式和無數次的失敗實驗,從“一張白紙”一點一滴地繪制出了屬于自己的技術藍圖。通過自動化方式快速生產粗標語料,為后續的精細打磨提供充足的“原料”;借助高精度數據篩選機制,讓每一次訓練都朝著更優的方向迭代;針對真實環境中不可避免的噪聲干擾,我們在模型中融入噪聲先驗設計,提升系統在復雜場景下的識別穩定性;圍繞阿拉伯語的語音特點對關鍵詞與數字等場景進行針對性優化,讓這門復雜的語言能夠被系統更好地捕捉和解析。最終,我們模型的噪聲魯棒性(即抗噪能力)提升了20多倍,識別準確率也超越了參數量數十倍于我們的業界模型。用結果說話,就是最好的回答。
跨界者的燈塔
2025年11月19日,在沙特通信展上,我們贏得了客戶的認可,甚至有客戶表達了下單的意愿。一路走來,我深切感知其中的艱辛與滾燙:我們從在邊緣的不斷嘗試,逐漸在這篇陌生的戰場撕開了一道口子,積累了寶貴的多語言、低資源、強實時語音處理經驗。
更重要的是,我們驗證了那條“依托公司平臺能力,進行跨技術領域融合創新”的路徑走得通,為后續類似“硬骨頭”項目積累了寶貴的經驗和信心。
回看和我并肩作戰的團隊,我們也從一支“白紙”團隊打磨成了能打硬仗的“尖刀連”,我個人也有幸獲得公司“金牌個人—卓越貢獻獎”,自身的“跨界”特質在實戰中完成了真正的熔合:數學的邏輯、AI的算法、工程的務實、語言的奧秘,在此刻貫通。
阿拉伯語同傳項目的成功,像一座燈塔,照亮了未來的航向。它告訴我,在這個時代,單一領域的深耕已不足以應對復雜的挑戰。真正的突破,往往發生在學科與能力的交叉地帶。
![]()
沙特同傳部分團隊合影(前排右二為作者)
這就是我的故事,一個關于“三無”起步,關于一群人在無人區攜手逆襲的故事。前路猶長,而我們,剛剛啟程。
來源:華為人
![]()
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.