?近日,百度文心衍生模型PaddleOCR在GitHub上的Star數(shù)突破73.3K,首次超越谷歌旗下開源OCR標(biāo)桿產(chǎn)品Tesseract OCR(73.2K),成為全球Star數(shù)最高的OCR項(xiàng)目。?
Tesseract OCR誕生于1985年,最初由惠普實(shí)驗(yàn)室研發(fā),2005年開源后由Google接手維護(hù)并持續(xù)迭代,是OCR領(lǐng)域延續(xù)近四十年的技術(shù)標(biāo)桿,長(zhǎng)期位居GitHub OCR項(xiàng)目Star數(shù)榜首。此次被PaddleOCR超越,標(biāo)志著這一標(biāo)桿正在被新一代技術(shù)體系改寫,也是大模型驅(qū)動(dòng)下中國(guó)開源項(xiàng)目首次在OCR領(lǐng)域超越谷歌主導(dǎo)的標(biāo)桿產(chǎn)品。
![]()
PaddleOCR基于文心大模型訓(xùn)練而來(lái),是文心大模型多模態(tài)能力的重要部分,支持超100種語(yǔ)言識(shí)別,用戶覆蓋160個(gè)國(guó)家和地區(qū)。1月29日,新一代文檔解析模型PaddleOCR-VL-1.5在 OmniDocBench V1.5 榜單中取得了全球SOTA成績(jī)。
近年來(lái),大模型成為OCR賽道增長(zhǎng)的重要?jiǎng)恿Αtar History數(shù)據(jù)顯示,PaddleOCR在GitHub上的Star自2024年起呈現(xiàn)爆發(fā)式增長(zhǎng)。2025年以來(lái),OCR更成為大模型廠商布局的重點(diǎn)方向,DeepseekOCR、HunyuanOCR、GLM OCR等產(chǎn)品相繼發(fā)布。
此外,PaddleOCR同步升級(jí)服務(wù)能力:官網(wǎng)免費(fèi)每日解析頁(yè)數(shù)由1萬(wàn)提升至2萬(wàn),用戶還可通過(guò)OpenClaw直接調(diào)用PaddleOCR Skill,免費(fèi)獲取高精度PDF解析能力。與此同時(shí),PaddleOCR OCEAN生態(tài)聯(lián)盟正式成立,面向核心開源貢獻(xiàn)者、深度企業(yè)用戶及全球平臺(tái)伙伴開放,首批成員包括Hugging Face、Dify、RAGFlow、Cherry Studio、Milvus等全球平臺(tái)伙伴,將共同推動(dòng)OCR技術(shù)在更廣泛場(chǎng)景中的應(yīng)用落地。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.