无主之地2配置高吗|看真人裸体BBBBB|秋草莓丝瓜黄瓜榴莲色多多|真人強奷112分钟|精品一卡2卡3卡四卡新区|日本成人深夜苍井空|八十年代动画片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,百度開源拿下全球第一!作者疑似DeepSeek出走大神

0
分享至


新智元報道


【新智元導讀】百度開源Unlimited OCR!3B參數500M激活,一口氣讀完40頁不失憶。作者疑似DeepSeek出走的OCR核心大神。

就在剛剛,百度悶聲干了票大的!

最新開源的Unlimited OCR,總參數3B,實際激活僅500M——放在大模型時代幾乎是個零頭。

但就是這個小到離譜的模型,在OmniDocBench v1.5上拿下93.23%的綜合分,v1.6更是達到93.92%,直接刷新了端到端SOTA。

什么概念?v1.5同臺競技的選手里,235B的Qwen3-VL拿了89.15,72B的Qwen2.5-VL拿了87.02,不公布參數量的Gemini-2.5 Pro也只有88.03。激活參數不到它們零頭的選手,反手把它們全甩了。

更離譜的是,它還干了件之前沒有OCR模型干成過的事:一口氣解析40多頁文檔,不失憶、不降速,一次推理從第一頁讀到最后一頁。

目前,模型和代碼都已同步上線GitHub和HuggingFace。


GitHub:

https://github.com/baidu/Unlimited-OCR

Hugging Face:

https://huggingface.co/baidu/Unlimited-OCR

為什么所有模型都在「逐頁失憶」

說到OCR,現在模型笨得讓人意外。

它們會把一件原本連貫的長程任務,硬生生切成幾十個互不相干的小任務,再靠一個外部調度器把結果勉強縫起來。就像在跑一個for循環,處理完一頁就把記憶清空,再從頭開始下一頁。

能用,但本質上只是工程的權宜之計,離真正的智能還差著一大截。

究其原因在于,隨著輸出越來越長,標準注意力機制下的KV緩存像滾雪球一樣瘋漲——內存吃不消,速度越來越慢。

這才是逼著所有模型逐頁處理、頻頻「失憶」的真正元兇。


但人類抄書,從來不是這么干的。

我們會維持一種連續的認知狀態——眼睛盯著三個點:原書、剛寫下的一小段、即將要寫的下一個字。

早些寫過的內容慢慢淡出腦海,最近的上下文用來盯住當前進度。

這種能力有個很妙的名字:「軟遺忘」(soft forgetting)。

正是靠著這種「該忘就忘」的本事,人才能在極低認知負荷下扛住超長任務。比如,抄一本書、譯幾百頁、連續轉錄數小時音頻。

百度想做的,就是把人類這種「原文全局可見、記憶只保留最近幾行」的注意力方式,搬進模型里。讓OCR告別失憶。

R-SWA:把「抄書的秘密」寫進注意力

順著這個思路,百度提出了報告里的核心技術——參考滑動窗口注意力(Reference Sliding Window Attention,R-SWA),精確對應前面說的人抄書時的注意力模式。

具體來說,每生成一個token,R-SWA都會去看全部「參考token」,也就是整張圖像的視覺token和提示詞,保證模型始終「看得見」完整原文。

但在輸出這一側,它只回看前面128個token,就像你抄書時只瞄一眼剛寫的那幾行。

落到實現上,Unlimited OCR把所有注意力層全換成R-SWA,從而把KV緩存變成一個固定容量的隊列。

每生成一個新token,最老的那個就被擠出去,大小始終不變。輸出1萬個token和10萬個token,內存占用是完全一樣的。


報告中Flash Attention v3的延遲測試也一目了然。

DeepSeek OCR的標準MHA隨著解碼步數增加,每步耗時穩步攀升;而Unlimited OCR的R-SWA從頭到尾一條平線,紋絲不動。


一次推理,讀完幾十頁

這里還有一個至關重要的配合:DeepEncoder。

這個最初在DeepSeek OCR中登場的編碼器,能把一張1024×1024的PDF頁面壓縮到僅僅256個視覺token,壓縮率高達16倍。

而且由于視覺token在R-SWA下不參與狀態轉移,因此無論文檔多長,圖像信息永遠清清楚楚,不會隨解碼過程逐漸退化。

配合DeepEncoder的極致壓縮和R-SWA的恒定緩存,Unlimited OCR在標準的32K上下文里,一次前向推理就能轉錄數十頁文檔。

結果顯示,同時輸入20頁文檔,轉錄與原文逐字比對的編輯距離僅0.057;即便輸入40頁以上,依然控制在0.11以下,衡量重復輸出的Distinct-35高達97%——幾十頁一口氣轉錄,幾乎沒有復讀。


在OmniDocBench v1.5上,Unlimited OCR拿到93.23%的綜合得分,比DeepSeek OCR的87.01%高出6.22個百分點。

文本編輯距離從0.073降到0.038,公式CDM從83.37飆到92.61,表格TEDS從84.97升至90.93。

在更新的v1.6上,同樣以93.92%拿下端到端SOTA。


效率方面同樣碾壓。

輸出達到6144個token時,Unlimited OCR的TPS是7847,DeepSeek OCR已經掉到5822,差距高達35%。


別忘了,這是一個500M激活的MoE小模型,在DeepSeek OCR基礎上僅繼續訓練4000步的結果。

投入不算大,但效果拔群——R-SWA對解析任務是一種真正的「免費午餐」。

九大文檔類型的細分對比中,PPT、論文、雜志、報紙無一短板,Unlimited OCR在文本和閱讀順序兩項上全面超越DeepSeek OCR,且在七個類別中領先DeepSeek OCR 2。

一位神秘的技術總監

跑分說完了。但這份報告真正有意思的地方,是行文方式。

從副標題的語氣到技術的敘事,讀過DeepSeek那幾份技術報告的人,幾頁下來就會覺得似曾相識。

末尾還斷言R-SWA是通用解析機制,而OCR只是第一站。

一篇OCR報告,硬是寫出了探索通用智能的味道。

然后,是那個最讓人在意的地方——作者名單。

核心貢獻者三位:Youyang Yin,Huanhuan Liu*(項目leader),YY?(技術總監)。

兩個人用真名,唯獨技術總監掛了個兩字母縮寫。有點意思。

雖然論文沒多說,但GitHub致謝欄卻把線索遞了過來:Deepseek-OCR和Deepseek-OCR-2,排在致謝前兩位。


順著這條線往回找。DeepSeek OCR從一代到二代,核心作者始終三個人:魏浩然、孫耀峰、李宇琨。同一支小隊伍,從無到有。

今年4月DeepSeek發V4,魏浩然名字后面多了星號——已離職。

三個人里,只有他已經公開離開。

再看履歷。魏浩然,階躍星辰出身,主導開發了端到端OCR最早跑通的開源標桿GOT-OCR2.0。到DeepSeek后,更是一手搭起整條OCR線,DeepEncoder、MoE解碼器,一代到二代都是他的團隊。

能力、時間線、署名方式,三條都對得上。

國內OCR圈不大,能做出R-SWA這種級別突破、還對DeepSeek OCR架構有「親手做過」級別熟悉的人,一只手數得過來。魏浩然是其中最顯眼的那一個。

如此一來,YY大概率就是魏浩然了。

百度,依然能打

過去幾年,PaddleOCR幾乎是國產OCR的代名詞。開源、輕量,產業落地最廣——從手機端到服務器到嵌入式設備,覆蓋了最主流的應用場景。

不過之前百度更側重產業應用。穩定性、部署成本、場景覆蓋是強項,「用前沿研究理念重塑OCR范式」這個方向并非其敘事重點。

而魏浩然做的,恰好就是這件事。

從GOT-OCR2.0的端到端一次解析,到DeepSeek-OCR的視覺壓縮,再到R-SWA——先想清楚OCR應該長什么樣,再做出來。

一邊是產業落地最成熟、場景覆蓋最廣的工程底座;一邊是端到端長程解析最前沿的研究品味。兩者疊加,補齊的不只是一個技術短板,而是一種「既能大規模鋪開、又能持續引領范式」的完整能力。

百度今年把AIDU人才計劃升級為集團級項目、薪酬不設上限。對一個想把研究做到落地的人來說,百度多年鋪下來的產業底座,比單純的高薪更有說服力。

魏浩然如果真的選了百度,邏輯就很清楚——這里有最成熟的產業底座,也有把研究推到前沿的空間和資源。

如果他真的把R-SWA推廣到ASR和翻譯,那百度手里握著的就不只是一個OCR模型,而是一套通用長程解析的技術框架。

論文展望里還留了一句:下一步,上下文窗口訓到128K,構建prefill pool讓模型學會自動翻頁。

如果做到了,OCR就不再是識別一頁文字,而是理解一整本書。

參考資料:

https://github.com/baidu/Unlimited-OCR

https://huggingface.co/baidu/Unlimited-OCR

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
越吃陽氣越足,建議中老年:夏至后常吃5樣,增強體質少生病

越吃陽氣越足,建議中老年:夏至后常吃5樣,增強體質少生病

愛生活的陶哥
2026-06-22 07:20:59
滾出去!以色列代表聯合國會議當場發飆,怒斥聯合國官員:你閉嘴

滾出去!以色列代表聯合國會議當場發飆,怒斥聯合國官員:你閉嘴

知鑒明史
2026-06-21 23:22:27
斯諾克上海表演賽:趙心童又逆轉,翻盤小司機,小鋼炮復仇吳宜澤

斯諾克上海表演賽:趙心童又逆轉,翻盤小司機,小鋼炮復仇吳宜澤

劉姚堯的文字城堡
2026-06-22 17:19:22
目睹媽媽跳樓,12歲女兒報完案,從同一窗口躍下,就因為輔導作業

目睹媽媽跳樓,12歲女兒報完案,從同一窗口躍下,就因為輔導作業

媒體人溪婉
2026-06-22 12:21:44
日本養老體系徹底崩塌,給中國提個醒:最先倒下的,恐怕不是老人

日本養老體系徹底崩塌,給中國提個醒:最先倒下的,恐怕不是老人

慕名而來只為你
2026-06-17 22:25:10
TCL李東生放話:工人工資高了,不利于國際競爭,評論區一片罵聲

TCL李東生放話:工人工資高了,不利于國際競爭,評論區一片罵聲

譚談社會
2026-06-21 10:24:44
52歲納什現狀如何?被炒后不工作,定居加州,享受足球,二婚恩愛

52歲納什現狀如何?被炒后不工作,定居加州,享受足球,二婚恩愛

大西體育
2026-06-22 07:03:17
哈蘭德鬧出烏龍笑話,錯把夢露認成斯嘉麗

哈蘭德鬧出烏龍笑話,錯把夢露認成斯嘉麗

足球推文C
2026-06-22 11:03:42
向佐的話起作用了!向太主動關心小兒子,向佑曬4人合照表白父親

向佐的話起作用了!向太主動關心小兒子,向佑曬4人合照表白父親

小瘋子耶
2026-06-22 14:36:12
俄媒女主持人曾言:若中國愿出兵300萬,俄軍很快就能打敗烏克蘭

俄媒女主持人曾言:若中國愿出兵300萬,俄軍很快就能打敗烏克蘭

南宗歷史
2026-03-17 16:53:10
徹底炸了!俄羅斯,終極殺器重磅登場了!

徹底炸了!俄羅斯,終極殺器重磅登場了!

大嘴說天下
2026-06-21 22:50:05
100萬美金一夜清零的教訓

100萬美金一夜清零的教訓

債市邦
2026-06-17 17:44:44
多款嬰兒紙尿褲被曝檢出"甲酰胺" 上海啟動檢查

多款嬰兒紙尿褲被曝檢出"甲酰胺" 上海啟動檢查

看看新聞Knews
2026-06-19 13:56:23
物業“不讓封陽臺”怎么辦?建議學學廣東人的新式做法,效果太棒了!

物業“不讓封陽臺”怎么辦?建議學學廣東人的新式做法,效果太棒了!

設計最前沿
2026-06-22 22:59:24
iPhone 18標準版外觀出爐:橫向大矩陣模組 神似雙攝版17 Pro

iPhone 18標準版外觀出爐:橫向大矩陣模組 神似雙攝版17 Pro

快科技
2026-06-22 16:43:08
韓國前國腳李榮杓:日本隊世界杯奪冠大概在1%左右

韓國前國腳李榮杓:日本隊世界杯奪冠大概在1%左右

懂球帝
2026-06-22 11:17:17
在柬埔寨遞槍劫囚,“江湖最后大嫂”阮氏海云獲刑8年,主謀丈夫重判14年;此前劫囚事件被解讀為“為愛奮不顧身”

在柬埔寨遞槍劫囚,“江湖最后大嫂”阮氏海云獲刑8年,主謀丈夫重判14年;此前劫囚事件被解讀為“為愛奮不顧身”

揚子晚報
2026-06-22 12:11:06
萬科徹底崩了!兩年虧1380億,退休8年的王石也栽了

萬科徹底崩了!兩年虧1380億,退休8年的王石也栽了

青眼財經
2026-06-22 18:36:12
經紀人:佛得角門將走紅后,收到包括中國在內的海外商業合作邀請,考慮為他開通中國社媒賬號

經紀人:佛得角門將走紅后,收到包括中國在內的海外商業合作邀請,考慮為他開通中國社媒賬號

紅星新聞
2026-06-22 13:25:09
iPhone Ultra定檔9月:首批備貨緊張 搶到賺到

iPhone Ultra定檔9月:首批備貨緊張 搶到賺到

快科技
2026-06-22 16:13:26
2026-06-22 23:55:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
15507文章數 66929關注度
往期回顧 全部

科技要聞

馬云與阿里巴巴眾高管下田插秧

頭條要聞

媒體:中國"兩箭齊發"反制美國 不賣了也不買了

頭條要聞

媒體:中國"兩箭齊發"反制美國 不賣了也不買了

體育要聞

法國球星祝中國隊下屆世界杯取得好成績

娛樂要聞

陪睡陪玩是皮毛,向佐揭內娛暗規則

財經要聞

前美聯儲主席格林斯潘去世 享年100歲

汽車要聞

華為智駕ADS限時優惠月底結束 7月1日前下訂立省3000元

態度原創

家居
游戲
手機
藝術
教育

家居要聞

綠意盎然 自然之境

傳《鬼泣1:重制版》開發中 進展相當順利

手機要聞

羅永浩曾痛批iPhone設計屬于二流 蘋果新CEO調轉方向:將設計視為第一優先級

藝術要聞

光設計就刷屏!南京“綠洲大廈”,層層像梯田!

教育要聞

重磅英國首相斯塔默辭職!英國留學會復蘇嗎?

無障礙瀏覽 進入關懷版