2026年4月,云知聲智能科技股份有限公司(以下稱“云知聲”)宣布其工業級文檔智能基礎大模型UnisoundU1-OCR完成能力迭代,全新系列模型正式推出。該模型同步全量上線云知聲TokenHub大模型服務平臺,開放標準化API接口,采用Token計費模式,大幅降低企業接入成本與部署門檻,進一步推動文檔智能技術在金融、醫療、教育、交通等行業的規模化落地,正式開啟OCR3.0時代。
![]()
技術架構革新,權威認證加持
U1-OCR系列模型實現架構范式升級,拋棄傳統非極大值抑制(NMS)方案,采用統一結構精修技術解決級聯誤差問題,在復雜版面解析能力上實現質的飛躍。傳統NMS僅能對重疊候選框去重,難以保留定位更準、覆蓋更全的區域,而新架構可精準判定區域邊界、區分內容類別并恢復整體結構,從根源上避免內容重復、順序錯亂等問題。
技術實力獲全球權威驗證,核心論文入選ACL2026頂級會議,并在OmniDocBench與D4LA兩大權威數據集上登頂。在OmniDocBench數據集上,U1-OCR以96.23的F1分數領先PP-DocLayoutV3、MinerU2.5等主流模型;在D4LA數據集上,以93.93的F1分數位居榜首,充分展示其跨數據集泛化能力與結構理解實力。
![]()
全場景適配,服務能力全面開放
U1-OCR系列模型實現行業全場景覆蓋,可高效處理金融合同、醫療病歷、教育教材、交通報表等各類復雜文檔,精準完成結構理解與閱讀順序恢復。無論是論文、研報等線性文檔,還是農業報刊多欄排版、數獨游戲高密度頁面等特殊場景,模型均能準確識別標題、正文、圖表、表格等元素關聯,還原符合人類閱讀習慣的內容順序,徹底解決傳統OCR“只讀文字、不懂排版”的行業痛點。
云知聲還構建了以“山海”大模型矩陣為核心的技術生態,U1-OCR作為文檔智能核心底座,與醫療、語音等領域模型協同進化,形成完整技術閉環。此次標準化API的開放,進一步降低技術使用門檻,讓更多企業低成本享受到OCR3.0時代的文檔智能紅利,助力各行業加速數字化轉型進程。
未來,云知聲將持續迭代模型能力,拓展更多行業場景應用,推動文檔智能技術向更深層次、更廣范圍滲透,為千行百業智能化升級注入核心動力。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.