无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

一次吃下一本書!百度開源新OCR,作者疑似前DeepSeek研究員

0
分享至

henry 發自 凹非寺
量子位 | 公眾號 QbitAI

國產開源OCR又刷新SOTA!

剛剛,百度開源了全新的OCR新模型——

Unlimited OCR

它主打一口氣讀完幾十頁長文檔,并在OmniDocBench上刷新SOTA,整體成績超過此前的DeepSeek OCR。



與傳統OCR處理長文檔時“一頁一頁讀,再把結果拼回去”的思路不同,Unlimited OCR這次模仿了一種酷似人類抄錄員的工作方式:

不再死記硬背前面已經抄寫過的內容,而是只保留當前工作需要的信息和進度。

基于此,它能夠像人一樣連續閱讀整本書,而不是每讀完一頁就中斷一次,再從下一頁重新開始。

更關鍵的是,借助創新的參考滑動窗口注意力(Reference Sliding Window Attention,R-SWA)機制,即便文檔越來越長,顯存占用和注意力計算開銷也幾乎不會增長。

這是怎么做到的?

for-loop只是權宜之計

要理解Unlimited OCR,得先看看傳統OCR是怎么處理超長文檔的。

簡單來說,OCR(光學字符識別,Optical Character Recognition)就是把圖片里的內容讀出來,再轉換成Markdown等可編輯文本。

在以往的處理流程中,一張圖片會先進入編碼器,被壓縮成一串視覺Token;隨后解碼器再一個字一個字地把內容寫出來。



但問題在于,傳統的OCR解碼器每生成一個新Token,它都需要回頭查看之前生成過的所有Token,再決定下一個字該寫什么。

于是文檔越長,需要回看的歷史內容就越多,KV Cache持續膨脹,顯存占用和注意力計算開銷也隨之增長。

最終,無論是生成長度還是推理速度,都會受到限制。

這也是為什么現有OCR系統很難一次讀完幾十頁文檔,通常只能采用“逐頁處理+結果拼接”的方案:

每讀完一頁就重置上下文,最后再由外部程序把結果重新拼起來。

這種for-loop式方案雖然工程上可行,但本質上只是權宜之計,而Unlimited OCR想解決的,正是進一步擴展模型在長程任務的表現。

參考滑動窗口注意力

那,問題來了。

如果不采用逐頁重置的for-loop方案,模型又該如何在保持連續閱讀狀態的同時,避免KV Cache隨著文檔長度無限增長?

Unlimited OCR給出的答案,不是讓模型記住更多東西,而是讓模型學會像人一樣“遺忘”。而這,就引出了它最核心的創新點:參考滑動窗口注意力

為了說明參考滑動窗口注意力的設計思路,研究舉了一個非常形象的例子:人類閱讀長文檔其實并不是全量回溯的。

比如抄寫一本書時,你不會每寫一個字都重新翻閱前面幾十頁。

你只會保留當前的閱讀狀態,以及剛剛寫下的一小段內容,用來確認沒有跳行、沒有漏字,更久遠的信息則會逐漸淡出記憶。

論文將這種機制稱為軟遺忘(Soft Forgetting)



受此啟發,參考滑動窗口注意力應運而生。

對于每個待生成Token,模型始終關注全部參考Token(Reference Tokens),也就是視覺Token和提示詞;

與此同時,在輸出端只保留最近n個歷史Token(默認128個)參與注意力計算。

就好像你抄書的時候,原書始終攤開在桌面上,可以隨時查看完整內容;

而手邊只保留最近寫下的幾行字,用來追蹤當前進度。更早的內容則自然淡出工作記憶。

這樣一來,模型既能持續看到完整圖像,又能依靠局部歷史信息判斷當前解析到了哪里。

此外,這里值得一提的,還有Unlimited OCR的KV Cache管理方式。

論文將KV Cache設計成一個固定長度的隊列。每生成一個新Token,最舊的一部分狀態就會自動移出,新狀態再補進來。

因此,無論最終生成幾千還是幾萬個Token,KV Cache規模始終保持恒定,顯存占用和計算成本都不會繼續增長。

這也是R-SWA與其他注意力機制最大的區別。

相比全注意力(Full Attention),后者的KV Cache會隨著解碼不斷膨脹,而R-SWA始終保持固定大小。

相比傳統滑動窗口注意力(SWA),后者會把視覺Token和文本Token一起放進窗口,隨著窗口不斷滑動,早期視覺信息會逐漸被擠出;解碼越長,對原圖的感知就越模糊。

而R-SWA則將視覺Token單獨保留下來,讓它們始終作為參考信息存在,不參與滑動窗口更新。

換句話說,圖像始終保持清晰,發生滑動的只有輸出文本本身。



正如上圖所示,傳統OCR越讀越慢,而Unlimited OCR基本保持勻速運行,這正是R-SWA的價值所在。

實驗驗證

在實驗部分,研究團隊采用OmniDocBench v1.5和v1.6評估模型的文檔解析能力,并額外構建了覆蓋2頁至40頁以上文檔的內部測試集,專門考察其長文檔連續解析能力。

首先來看整體成績。



在OmniDocBench v1.5上,Unlimited OCR取得了93.23%的綜合得分,相比DeepSeek OCR提升6.22%

在最新的v1.6版本中,成績進一步達到93.92%,刷新當前SOTA。

長文本解析能力方面,即便一次性輸入40頁以上內容,模型依然能夠保持穩定表現。

其Distinct-35指標達到96.90%,編輯距離(Edit Distance)始終維持在0.1069以下。



換句話說,隨著文檔長度不斷增長,模型并沒有出現明顯的內容混淆或解析質量下降。

除了精度提升,Unlimited OCR還帶來了推理效率上的改善。



由于采用恒定KV Cache設計,模型的推理開銷不會隨著文檔頁數持續增長。在生成6000個Token時,其推理速度(TPS)相比DeepSeek OCR提升約35%。

與此同時,調用延遲(Latency)基本保持穩定,沒有出現長文檔場景下常見的延遲飆升現象。

OCR之外:一種新的長上下文思路

如果把最近一年的時間線串起來看,會發現一個有意思的現象:越來越多頭部模型公司開始重兵投入OCR。

從DeepSeek年初發布OCR2,到智譜開源GLM-OCR,再到百度這次推出Unlimited OCR,大家爭奪的早已不是單純的文字識別能力,而是新的數據入口。

互聯網數據正在被快速消耗,而企業真正有價值的數據,其實大量沉睡在PDF、合同、報告、票據和掃描件里。

對于人類來說,這些是信息,但對于模型來說,它們只是像素。

OCR的意義,就是把這些像素重新變成模型能夠理解和推理的Token。因此,OCR正在從一個傳統工具,逐漸變成AI時代最重要的數據入口之一。

不過,如果只把Unlimited OCR看成一個OCR模型,可能就低估了它。

過去兩年,行業面對長上下文問題時,最主流的思路一直是擴容。

128K、1M、10M,上下文窗口不斷變長;各種長上下文優化方案,本質上也都在思考如何讓模型記住更多信息。

而R-SWA反著來。

與其讓模型記住一切,不如讓它學會像人一樣遺忘。

所以說,Unlimited OCR看起來解決的是OCR問題,但它修改的是注意力機制本身。而注意力,恰恰是今天幾乎所有大模型共同的基礎設施。

因此,這篇論文真正討論的,其實不只是OCR該怎么做,而是另一個更基礎的問題:

當任務越來越長時,模型究竟該如何管理自己的記憶?

論文也給出了明確的路線圖。

短期內,團隊計劃訓練更長上下文版本,把解析能力擴展到128K;長期則希望構建類似“預填池(Prefill Pool)”的機制,讓模型能夠像人翻書一樣,按需調取歷史KV狀態,進一步突破上下文限制。

而更有意思的是,他們計劃將R-SWA擴展到語音識別、機器翻譯等任務。

換句話說,OCR或許只是第一站。

某種程度上,這條“怎么記”的路線,也恰好與DeepSeek OCR2探索的“怎么看”形成了呼應:

前者關注視覺信息如何被更高效地理解,后者則開始思考這些信息該如何在超長任務中被保留、傳遞與遺忘。



從視覺理解到長期記憶,從OCR到更廣義的長時推理。

或許,這才是Unlimited OCR真正想講的故事。

One more thing

值得一提的是,技術報告發布后,作者名單里的一個名字也引發了不少討論。



在三位核心貢獻者中,有一位作者并沒有使用全名,而是以“YY”的縮寫署名,并被標注為技術總監。

這個YY是誰?

很快,網友們開始順著論文里的各種細節尋找答案。

首先是這份技術報告本身。

從行文風格到技術敘事,讀過DeepSeek OCR技術報告的人,大概率都會有一種熟悉感。

無論是強調“像人一樣閱讀文檔”的理念,還是把技術問題包裝成一個關于記憶與遺忘的故事,都帶著濃厚的探索色彩。

而在技術實現上,Unlimited OCR同樣出現了不少熟悉的身影。

眾所周知,DeepEncoder最早正是在DeepSeek OCR中被提出。這次Unlimited OCR則直接沿用了這一高壓縮率視覺編碼器,并將創新重點放在了解碼階段的長期記憶機制上。

有意思的是,在項目GitHub頁面的致謝部分,團隊還專門提到了DeepSeek OCR和PaddleOCR等相關工作。



種種線索疊加之下,不少網友開始猜測:這位YY,很可能就是前DeepSeek OCR團隊研究員魏浩然

作為OCR領域的資深研究者,魏浩然此前曾在階躍星辰工作,并主導開發了被稱為“第二代OCR”代表作之一的GOT-OCR2.0。

該項目也是端到端OCR方向最早跑通的開源標桿之一。此后,他又參與了DeepSeek OCR系列的研發,在DeepSeek OCR和OCR2的核心作者名單中,長期出現的正是魏浩然、孫耀峰和李宇琨三人。

而這一次,在Unlimited OCR的技術報告中,人們似乎又看到了同一條研究路線繼續向前延伸的影子。

當然,截至目前,YY的真實身份仍未得到官方確認。

但比身份本身更有意思的,或許是這篇論文所展現出的研究思路:

從視覺編碼,到長期記憶;從“怎么看”,到“怎么記”。

而OCR,也許只是這條路線的第一站。

[1]https://github.com/baidu/Unlimited-OCR

[2]https://huggingface.co/baidu/Unlimited-OCR

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
南京婦兒堂醫院謊稱跟北京協和合作 騙患者花近兩萬元做完全沒必要的手術

南京婦兒堂醫院謊稱跟北京協和合作 騙患者花近兩萬元做完全沒必要的手術

閃電新聞
2026-06-28 15:38:55
三只羊開賣線下課:大楊哥現身分享短視頻經驗 三天兩晚收費1980元

三只羊開賣線下課:大楊哥現身分享短視頻經驗 三天兩晚收費1980元

快科技
2026-06-26 17:41:08
白云機場突發鬧劇9人印度旅行團入境集體賴,撕毀返程機票不離境

白云機場突發鬧劇9人印度旅行團入境集體賴,撕毀返程機票不離境

愛下廚的阿釃
2026-06-28 04:38:21
調查發現,有娃有房貸的中年人,最仇視的,就是不婚不育的年輕人

調查發現,有娃有房貸的中年人,最仇視的,就是不婚不育的年輕人

舒山有鹿
2026-06-28 09:26:46
因生不出孩子被踢出豪門,卻二婚后兒女雙全,陳法拉終于揚眉吐氣

因生不出孩子被踢出豪門,卻二婚后兒女雙全,陳法拉終于揚眉吐氣

最美的筆觸
2026-05-23 17:11:22
美軍連續兩天打擊伊朗 伊威脅“地獄”式回擊

美軍連續兩天打擊伊朗 伊威脅“地獄”式回擊

環球網資訊
2026-06-28 15:15:22
雍正迷路被山村寡婦收留,臨走:你想要什么?寡婦回答讓他愣住

雍正迷路被山村寡婦收留,臨走:你想要什么?寡婦回答讓他愣住

黃家湖的憂傷
2025-10-13 16:26:29
把中國游客攔在門外,高市不聽岸田忠告,中方對日本政府改了稱呼

把中國游客攔在門外,高市不聽岸田忠告,中方對日本政府改了稱呼

凡知
2026-06-28 15:05:23
笑噴!吳艷妮:早上比賽太早我賴床睡過頭了 不化妝了直接素顏上場

笑噴!吳艷妮:早上比賽太早我賴床睡過頭了 不化妝了直接素顏上場

818體育
2026-06-28 15:08:57
小s許雅鈞香港坐快艇被偶遇,穿的是15年前的短袖,老公滿頭白發

小s許雅鈞香港坐快艇被偶遇,穿的是15年前的短袖,老公滿頭白發

阿纂看事
2026-06-28 12:44:04
王姬現狀:在美國生活,女兒女婿住北京舊房,堅持照顧33歲病兒子

王姬現狀:在美國生活,女兒女婿住北京舊房,堅持照顧33歲病兒子

可樂談情感
2026-06-17 15:54:58
伊朗外長阿拉格齊已啟程前往伊拉克,協調將于7月初在伊拉克南部舉行已故最高領袖阿里·哈梅內伊的葬禮部分儀式

伊朗外長阿拉格齊已啟程前往伊拉克,協調將于7月初在伊拉克南部舉行已故最高領袖阿里·哈梅內伊的葬禮部分儀式

瀟湘晨報
2026-06-28 13:35:12
奧迪全新硬派越野車渲染圖曝光!方正造型對標奔馳G級

奧迪全新硬派越野車渲染圖曝光!方正造型對標奔馳G級

沙雕小琳琳
2026-06-28 15:35:00
超40℃熱浪席卷歐洲,超200人因高溫死亡,中國空調爆單,二手價一度超新品價

超40℃熱浪席卷歐洲,超200人因高溫死亡,中國空調爆單,二手價一度超新品價

21世紀經濟報道
2026-06-28 11:56:38
18歲被王全安選中,20歲登戛納,后來為啥沒人敢用她?

18歲被王全安選中,20歲登戛納,后來為啥沒人敢用她?

不似少年游
2026-05-21 14:26:19
新型出軌太會了:不發消息不打電話,只靠這兩種方式聯系,真藏得太深了

新型出軌太會了:不發消息不打電話,只靠這兩種方式聯系,真藏得太深了

心理觀察局
2026-06-26 07:37:08
為什么遠赴美國的中國頂尖人才,紛紛斷了后,生育率低得驚人?

為什么遠赴美國的中國頂尖人才,紛紛斷了后,生育率低得驚人?

小影的娛樂
2026-06-27 20:30:27
6月27號,轟六進入日本海上空,東京剛想出手發現恐怖一幕!

6月27號,轟六進入日本海上空,東京剛想出手發現恐怖一幕!

安安說
2026-06-28 12:07:57
阿根廷丟個球反而是好事?此前小組賽零封的球隊從未奪冠

阿根廷丟個球反而是好事?此前小組賽零封的球隊從未奪冠

蘭亭墨未干
2026-06-28 13:44:05
布朗瞬間不香了!兩屆FMVP遭哄搶,球隊不想交易,外界還瘋狂報價

布朗瞬間不香了!兩屆FMVP遭哄搶,球隊不想交易,外界還瘋狂報價

你的籃球頻道
2026-06-28 10:51:37
2026-06-28 16:08:49
量子位 incentive-icons
量子位
追蹤人工智能動態
12856文章數 176506關注度
往期回顧 全部

科技要聞

DeepSeek最新論文:如何讓大模型跑得更快

頭條要聞

一派出所被指集體去KTV招異性陪侍 涉事者都被保留公職

頭條要聞

一派出所被指集體去KTV招異性陪侍 涉事者都被保留公職

體育要聞

韓國可算確定被淘汰了

娛樂要聞

曾沛慈拿下《乘風2026》年度總冠軍

財經要聞

兩只股票撐起的韓國股市,半年熔斷?33 次

汽車要聞

蔚來ES大五座體驗 全場景行李艙讓你帶著生活出發

態度原創

游戲
家居
數碼
手機
公開課

《幻獸帕魯》1.0版本更新內容多達27頁PDF文檔

家居要聞

綠意盎然 自然之境

數碼要聞

歐洲熱浪已致上百人死亡!中國空調爆單:二手價一度超新品價

手機要聞

vivo X Fold6折疊屏手機維修備件價格公布

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版