網易首頁 > 網易號 > 正文 申請入駐

云知聲4篇論文入選自然語言處理頂會ACL 2026 再獲國際頂會認可

0
分享至

近日,自然語言處理領域頂級國際學術會議 ACL 2026(第 64 屆國際計算語言學協會年會)公布論文接收結果。云知聲表現亮眼,共有 4 篇論文成功錄用,其中 3 篇入選主會(Main Conference),1 篇入選 Findings。本屆 ACL 共收到 12148 篇投稿,經多輪嚴格評審,主會論文接收率僅 19%,Findings 論文接收率為 18%。


ACL 作為人工智能與計算語言學領域公認的全球頂會,聚焦大語言模型、智能體、文本挖掘、對話系統等前沿方向,是全球科研成果與技術創新的權威風向標。ACL 2026 將于 7 月 2 日 —7 月 7 日在美國圣迭戈舉辦。

云知聲此次入選的 4 篇論文,精準覆蓋多模態語音識別、全模態情感識別與推理、文檔理解與閱讀順序檢測、強化學習四大關鍵賽道,直擊行業共性技術痛點,提出的原創理論與算法,為全模態大模型、行業智能體的技術迭代提供了全新思路。其相關創新研究也與 UniGPT、山海?知音 2.0、U1-OCR 等模型產品形成深度技術閉環,為模型在嚴肅場景的規模化落地筑牢堅實學術根基。


以下為入選論文概覽:

01

VAPO: End-to-end Slide-Enhanced Speech Recognition with Omni-modal Large Language Models

作者:Rui Hu, Delai Qiu, Yining Wang, Shengping Liu, Jitao Sang

研究方向:多模態語音識別

錄用類型:ACL 2026, Main, Long paper

arXiv鏈接:https://arxiv.org/pdf/2510.08618

論文簡介:全模態大模型在結合幻燈片視覺信息的語音識別任務中具備端到端處理潛力。然而,此類模型普遍存在視覺干擾現象,即模型過度依賴幻燈片可見文本,導致對語音內容的感知弱化,引發轉錄失效。

針對該問題,本文提出視覺錨定策略優化方法(VAPO),其核心在于模擬人類聽取專業報告時的“先看后聽”感知流程,通過思維鏈格式,將視覺感知與語音轉錄在時序上解耦:首先提取幻燈片文本作為視覺語義先驗,隨后以視覺先驗作為錨點輔助完成語音識別。本文設計了涵蓋格式、OCR、ASR、視覺錨定四類獎勵函數引導模型的學習。同時,為解決現有數據專業實體密度低的問題,構建了包含合成數據集與真實數據的SlideASR-Bench基準。實驗結果表明,VAPO能夠有效消除全模態大模型的視覺干擾問題,在 SlideASR-Bench 及 SlideSpeech 等數據集上刷新了 SOTA 性能,并顯著降低了領域專業實體的識別錯誤率。


02

Beyond Modality Collapse: Taming Guided Modality Entropy for Omni-modal Emotion Reasoning

作者:Xian Zhao, Rui Hu, Yuxiang Zhang, Delai Qiu, Yining Wang, Shengping Liu, Jian Yu, Jitao Sang

研究方向:全模態情感識別與推理

錄用類型:ACL 2026, Findings, Long paper

論文簡介:在以人為本的人工智能領域,全模態情感識別與推理是實現深度人機交互的核心挑戰。盡管全模態大模型(OLLMs)取得了顯著進展,但在處理復雜情感時仍面臨“模態塌陷”困境:模型往往過度向視覺等優勢模態對齊,導致音頻或對話語境中的關鍵線索被掩蓋,進而在面對微妙情感時容易產生誤判。

針對這一難題,我們提出EmoOmni 模型。該模型創新性的引入了 OmniCoT 數據構建范式,通過“引導標識符(Guided Tokens)”構建認知錨點,強制模型在時序上分步提取并整合視覺、音頻與文本特征,實現邏輯嚴密的鏈式推理。此外,我們提出了DyME-GRPO 動態模態熵優化算法,通過強化學習手段動態校準模型對不同模態的依賴度,徹底解決模態失衡問題。實驗表明,EmoOmni 在多項情感基準測試中刷新了 SOTA 紀錄,在保持通用交互能力的同時,實現了更深層、更魯棒的情感洞察。


03

FocalOrder: Focal Preference Optimization for Reading Order Detection

作者:Fuyuan Liu, Dianyu Yu, He Ren, Nayu Liu, Xiaomian Kang, Delai Qiu, Fa Zhang, Genpeng Zhen, Shengping Liu, Jiaen Liang, Wei Huang, Yining Wang, Junnan Zhu

研究方向:文檔理解與閱讀順序檢測

錄用類型:ACL 2026, Main, Long paper

arXiv鏈接:https://arxiv.org/pdf/2601.07483

論文簡介:

閱讀順序檢測是文檔理解的基礎任務。現有方法大多采用統一監督方式進行訓練,通常默認文檔不同版面區域的學習難度分布一致。本文對這一假設提出挑戰,并揭示了閱讀順序檢測中的一個關鍵問題,即位置差異性(Positional Disparity):模型通常能夠較好掌握起始和結束區域這類較為確定的布局模式,但在結構更復雜的中間區域會出現明顯的性能下降。進一步研究發現,造成這一問題的主要原因在于標準訓練過程中,大量簡單樣本的學習信號會淹沒復雜布局帶來的關鍵監督信息。

為解決上述問題,本文提出了FocalOrder框架,并設計了Focal Preference Optimization (FPO) 方法。具體而言,FocalOrder 通過結合指數滑動平均機制的自適應難度發現策略,動態定位難以學習的順序轉移關系;同時,引入難度校準的成對排序目標,以增強全局閱讀邏輯的一致性。實驗結果表明,FocalOrder 在OmniDocBench v1.0Comp-HRDoc上均取得了新的最優性能。值得注意的是,我們的緊湊模型不僅優于多種具有競爭力的專用方法,也顯著超過了大規模通用視覺語言模型。該研究表明,使優化過程與文檔結構本身的內在歧義性相匹配,對于提升復雜文檔結構建模能力至關重要。


04

HEALing Entropy Collapse: Enhancing Exploration in Few-Shot RLVR via Hybrid-Domain Entropy Dynamics Alignment

作者:Zhanyu Liu, Qingguo Hu, Ante Wang, Chenqing Liu, Zhishang Xiang, Hui Li, Delai Qiu, Jinsong Su

研究方向:基于可驗證獎勵的強化學習

錄用類型:ACL 2026, Main, Long paper

論文簡介:基于可驗證獎勵的強化學習(RLVR)在訓練推理導向的大語言模型方面已展現出顯著成效,但現有方法大多假設資源充足、訓練數據豐富。在低資源場景下,RLVR 極易遭遇更為嚴重的熵坍縮問題,這極大地限制了探索空間,并削弱了推理性能。

為此,我們提出混合域熵動態對齊(HEAL)框架,專為少樣本 RLVR 設計。HEAL 首先有選擇地融入高價值通用域數據,以促進更多樣化的探索。隨后,我們引入熵動態對齊(EDA)獎勵機制,該機制能夠對齊目標域與通用域之間的軌跡級熵動態,不僅捕捉熵的大小,還刻畫其精細變化。通過這種對齊,EDA 不僅進一步緩解了熵坍縮,還鼓勵策略從通用域習得更豐富的探索行為。跨多個領域的實驗結果表明,HEAL 能夠持續提升少樣本 RLVR 的性能。值得注意的是,僅使用 32 條目標域樣本,HEAL 即可達到甚至超越使用 1000 條目標域樣本訓練的全量 RLVR 模型水平。


云知聲是一家以多模態大模型為核心底座、以行業智能體為關鍵抓手、以嚴肅場景規模化落地為鮮明特色的中國原生大模型企業,并作為港股上市公司(股票代碼:09678.HK)列席我國大模型第一梯隊。基于云知聲UniGPT大模型矩陣,公司已構建覆蓋醫療、醫保、交通等多個垂直行業的模型體系,并同步布局語音、OCR、影像等多模態能力。

例如:山海醫學大模型在醫療文本和醫學影像雙核能力上持續突破,在頂尖醫學大模型評測MedBench 4.0上獲得三大榜單“大滿貫”;山海·知音大模型2.0是一款端到端、全雙工語音大模型,同時完美支持ASR與TTS,其TTS首包延遲低于90ms,在ASR、TTS及交互能力上全面達到業界SOTA水平,支持12種方言與10種外語,能夠細膩還原情感表達;U1-OCR文檔智能基礎大模型是一款工業級文檔智能基礎大模型,采用ViT+LLM先進架構,擁有30億參數,在OmniDocBench V1.5基準測試中以95.1分的成績奪得SOTA,開啟了OCR 3.0時代,完成從“字符感知”到“文檔認知”的跨越。

此次收錄的論文,正是圍繞上述核心模型矩陣展開的技術攻關。未來,云知聲將持續深耕多模態大模型與行業智能體核心技術,以科研成果驅動技術迭代,加速醫療、醫保、交通等垂直領域的智能升級,助力中國大模型技術在全球舞臺持續領跑,推動人工智能從技術創新走向產業價值的深度釋放。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
1991年日本房價開始暴跌,上萬人自盡,他們悟出一套道理沿用至今

1991年日本房價開始暴跌,上萬人自盡,他們悟出一套道理沿用至今

談史論天地
2026-04-21 18:40:03
尷尬!董宇輝被吐槽:喜歡支教,一天沒去;不喜歡帶貨,一天沒停

尷尬!董宇輝被吐槽:喜歡支教,一天沒去;不喜歡帶貨,一天沒停

火山詩話
2026-04-21 06:59:47
山東泰山本輪取勝,本賽季中超首次有扣分隊排名高于未扣分隊

山東泰山本輪取勝,本賽季中超首次有扣分隊排名高于未扣分隊

懂球帝
2026-04-21 22:45:07
大專、野模、知三當三,孫怡浪姐"騷操作"不斷難怪王京花看不上她

大專、野模、知三當三,孫怡浪姐"騷操作"不斷難怪王京花看不上她

橙星文娛
2026-04-18 16:01:07
沉默1天,中國準時發話,“高市下崗”傳遍全境,石破茂判斷沒錯

沉默1天,中國準時發話,“高市下崗”傳遍全境,石破茂判斷沒錯

黑鷹觀軍事
2026-04-21 23:07:57
二戰時期,唯一沒參戰的世界級強國,當時它到底在忙什么?

二戰時期,唯一沒參戰的世界級強國,當時它到底在忙什么?

諾言卿史錄
2026-03-27 09:49:20
尾盤突發!002342,收盤前4分鐘垂直漲停!商業航天,集體爆發!

尾盤突發!002342,收盤前4分鐘垂直漲停!商業航天,集體爆發!

證券時報e公司
2026-04-21 16:57:22
3年前就戳穿西貝預制菜沒人信,如今被實錘!這個探店博主藏得太深了

3年前就戳穿西貝預制菜沒人信,如今被實錘!這個探店博主藏得太深了

馬蹄燙嘴說美食
2026-04-15 18:29:48
“劉儀偉,我們的百億去哪了?”大片投資騙局受害人聯名質問

“劉儀偉,我們的百億去哪了?”大片投資騙局受害人聯名質問

文娛春秋Plus
2026-04-20 09:00:08
甘油三酯從6.27到1.68,我用了一個月,與大家分享我的經歷!

甘油三酯從6.27到1.68,我用了一個月,與大家分享我的經歷!

健康之光
2026-04-08 20:35:05
實在搞不懂,這么漂亮的女神,為啥也離婚了

實在搞不懂,這么漂亮的女神,為啥也離婚了

動物奇奇怪怪
2026-04-21 17:03:30
經濟大省調研行|吞吐之間見活力——透視長三角港口群的韌性支撐

經濟大省調研行|吞吐之間見活力——透視長三角港口群的韌性支撐

新華社
2026-04-21 16:51:07
工信部:今年來存儲芯片等產品產量實現超過40%的高速增長

工信部:今年來存儲芯片等產品產量實現超過40%的高速增長

北青網-北京青年報
2026-04-21 13:11:04
與李晨分手6年后嫁普通人,以為是好牌打爛,其實她才是人生贏家

與李晨分手6年后嫁普通人,以為是好牌打爛,其實她才是人生贏家

悅君兮君不知
2026-04-20 21:07:31
東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

東風導彈泄密案!間諜郭萬鈞一家三口,全部被處以死刑

番外行
2026-03-31 08:28:28
24架!殲-10直飛伊朗,美以不敢輕舉妄動!背后藏著一個天大的局

24架!殲-10直飛伊朗,美以不敢輕舉妄動!背后藏著一個天大的局

趣文說娛
2026-04-21 21:35:21
考辛斯:開拓者會被馬刺輕松橫掃,但對這支年輕球隊是積極的

考辛斯:開拓者會被馬刺輕松橫掃,但對這支年輕球隊是積極的

懂球帝
2026-04-21 23:37:05
全場嘩然!29歲女子在相親舞臺稱“娶我一定讓你爽”,王婆也懵了

全場嘩然!29歲女子在相親舞臺稱“娶我一定讓你爽”,王婆也懵了

火山詩話
2026-04-19 06:42:57
六層樓高的大樹“偷”走了她家的光,女子把隔壁小區的業委會告了

六層樓高的大樹“偷”走了她家的光,女子把隔壁小區的業委會告了

上觀新聞
2026-04-20 19:58:10
天安門偶遇張杰一家五口,杰哥一手牽一個女兒,畫面看著真幸福

天安門偶遇張杰一家五口,杰哥一手牽一個女兒,畫面看著真幸福

圓夢的小老頭
2026-04-21 17:38:06
2026-04-22 00:08:49
IT時代網 incentive-icons
IT時代網
IT時代網官方賬號
3491文章數 118關注度
往期回顧 全部

教育要聞

家里不讓我去留學了,怎么辦?

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

頭條要聞

三國取消飛航許可 賴清德無法竄訪斯威士蘭

體育要聞

一到NBA季后賽,四屆DPOY就成了主角

娛樂要聞

宋承炫曬寶寶B超照,宣布老婆懷孕

財經要聞

現實是最大的荒誕:千億平臺的沖突始末

科技要聞

創造4萬億帝國、訪華20次,庫克留下了什么

汽車要聞

全新坦克700正式上市 售價42.8萬-50.8萬元

態度原創

時尚
本地
健康
家居
教育

頂流復工,已判若兩人

本地新聞

春色滿城關不住|白鵑梅浪漫盛放,吳山藏了一片四月雪

干細胞抗衰4大誤區,90%的人都中招

家居要聞

詩意光影 窺見自然之境

教育要聞

被導師批到想退學,答辯當天他單挑專家組:硬實力才是底氣!

無障礙瀏覽 進入關懷版