近日,百度正式對外發布新一代文檔識別模型 PaddleOCR-VL-1.6。據官方公布的評測數據,該模型在多項權威基準測試中刷新業界最優(SOTA)記錄,綜合性能躋身全球第一,引發業內廣泛關注。
![]()
1、評測成績亮眼,多項指標超越國際主流模型
在當前 OCR 領域公認的權威評測集 OmniDocBench v1.6 上,PaddleOCR-VL-1.6 取得 96.33% 的總分,超過谷歌 Gemini-3-Pro、OpenAI GPT-5.2、MinerU-2.5-Pro 及國內的 GLM-OCR 等主流大模型與專用 OCR 方案,綜合排名全球第一。
在面向真實復雜場景設計的 Real5-OmniDocBench 評測中,該模型同樣表現突出,總指標達到 93.19%,較 Gemini-3-Pro 提升約 4 個百分點,在掃描件、彎折文檔、屏幕拍照、光照變化及傾斜文檔五類真實場景下均保持領先。
據了解,PaddleOCR 系列在文本、公式、表格等核心識別能力上實現全面升級,表格結構還原、古籍文字辨認與生僻字識別等復雜任務的準確率較上一代模型均有顯著提升;印章識別、圖表解析及文字定位(Spotting)等多項能力亦同步強化。
![]()
2、輕量架構不變,開發者可無縫遷移
值得關注的是,PaddleOCR-VL-1.6 在保留上一代 0.9B 輕量化參數規模的前提下實現了性能躍升,通過模型驅動的數據構建機制與漸進式訓練優化完成能力迭代。由于新舊兩代模型結構保持一致,已在生產環境中部署 PaddleOCR-VL-1.5 的開發者和企業用戶,無需額外適配即可平滑遷移至新版本,降低了升級成本。
PaddleOCR 系列模型基于百度文心大模型訓練而來,是文心多模態能力的重要組成部分,目前支持超過 100 種語言識別,用戶群體覆蓋全球 170 余個國家和地區。自項目開源以來,PaddleOCR 在 GitHub 上的 Star 數已突破 79,200,超越谷歌旗下老牌開源項目 Tesseract OCR,成為全球最受開發者關注的開源 OCR 項目之一。
3、即刻可用,代碼與權重全面開放
PaddleOCR-VL-1.6 目前已正式上線 PaddleOCR 官方網站(paddleocr.com),支持網頁端在線體驗及 API 調用;模型代碼與權重文件已同步開源至 GitHub(github.com/PaddlePaddle/PaddleOCR)及 Hugging Face(huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6),面向全球開發者免費開放。
隨著文檔數字化需求的持續增長,高精度、強魯棒性的 OCR 能力正成為企業智能化轉型的關鍵底座。此次 PaddleOCR-VL-1.6 的發布,或將進一步推動國產開源 OCR 技術在全球范圍內的采用與落地。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.