網易首頁 > 網易號 > 正文申請入駐

云知聲U1-OCR迭代發布，多行業場景實現精準解析升級

2026-04-23 09:10:55　來源: 商葉觀察角

河北舉報

分享至

2026年4月，云知聲智能科技股份有限公司（以下稱“云知聲”）宣布其工業級文檔智能基礎大模型UnisoundU1-OCR完成能力迭代，全新系列模型正式推出。該模型同步全量上線云知聲TokenHub大模型服務平臺，開放標準化API接口，采用Token計費模式，大幅降低企業接入成本與部署門檻，進一步推動文檔智能技術在金融、醫療、教育、交通等行業的規模化落地，正式開啟OCR3.0時代。

技術架構革新，權威認證加持

U1-OCR系列模型實現架構范式升級，拋棄傳統非極大值抑制（NMS）方案，采用統一結構精修技術解決級聯誤差問題，在復雜版面解析能力上實現質的飛躍。傳統NMS僅能對重疊候選框去重，難以保留定位更準、覆蓋更全的區域，而新架構可精準判定區域邊界、區分內容類別并恢復整體結構，從根源上避免內容重復、順序錯亂等問題。

技術實力獲全球權威驗證，核心論文入選ACL2026頂級會議，并在OmniDocBench與D4LA兩大權威數據集上登頂。在OmniDocBench數據集上，U1-OCR以96.23的F1分數領先PP-DocLayoutV3、MinerU2.5等主流模型；在D4LA數據集上，以93.93的F1分數位居榜首，充分展示其跨數據集泛化能力與結構理解實力。

全場景適配，服務能力全面開放

U1-OCR系列模型實現行業全場景覆蓋，可高效處理金融合同、醫療病歷、教育教材、交通報表等各類復雜文檔，精準完成結構理解與閱讀順序恢復。無論是論文、研報等線性文檔，還是農業報刊多欄排版、數獨游戲高密度頁面等特殊場景，模型均能準確識別標題、正文、圖表、表格等元素關聯，還原符合人類閱讀習慣的內容順序，徹底解決傳統OCR“只讀文字、不懂排版”的行業痛點。

云知聲還構建了以“山海”大模型矩陣為核心的技術生態，U1-OCR作為文檔智能核心底座，與醫療、語音等領域模型協同進化，形成完整技術閉環。此次標準化API的開放，進一步降低技術使用門檻，讓更多企業低成本享受到OCR3.0時代的文檔智能紅利，助力各行業加速數字化轉型進程。

未來，云知聲將持續迭代模型能力，拓展更多行業場景應用，推動文檔智能技術向更深層次、更廣范圍滲透，為千行百業智能化升級注入核心動力。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.