網易首頁 > 網易號 > 正文 申請入駐

OCR 新紀元,超強文檔解析 Skills 來了

0
分享至


知識管理缺了一塊拼圖

前段時間我在一文中介紹了 Karpathy 的知識管理方法——把各種原始素材統統丟進raw/目錄,用 Obsidian Web Clipper 一鍵裁剪網頁,配合 LLM 慢慢「編譯」成結構化 wiki

這個思路是對的,先不管三七二十一,把所有原始材料攢在一起。但問題來了:實際工作中,原始材料可不只是網頁和 Markdown

合同、財報、研報是 PDF、內部培訓材料是 PPT、數據是 Excel,各種文檔是 Word……這些東西直接扔給大模型,輕則格式一塌糊涂,重則整個表格都消失了,跨頁的更是截成碎片。做過 RAG 的都知道,解析是第一道關,解析不好,后面再聰明也白搭——垃圾進,垃圾出

OCR、文檔解析相關我寫過 N 多篇:DeepSeek-OCR、HunyuanOCR、PaddleOCR、GLM-OCR、MinerU 等,橫向對比了以上開源方案,從落地層面我最推薦的可能還是一文中我實測過的TextIn xParse,實力我就不單獨摘過來了,總之很強!

現在 xparse-parse 的 Skills 發布了,試用之后感覺:這才是最省心的方式

先說大家最關心的格式支持問題,再細說安裝的事兒

格式支持

TextIn xParse 屬于商業工具,但這次的skill提供了每日1000頁的額度,個人使用完全足夠

  • 格式支持:PDF+圖片(JPG/PNG/BMP/TIFF/WebP),≤10MB,每日1000頁,1次/秒

  • 配置憑證后:https://cc.co/16YSe8(注冊后獲取APP IDSecret Code),全格式解鎖Word、Excel、PPT、HTML、OFD、RTF等20+格式,單文件≤500MB,無每日頁數上限

Skills 地址:github.com/intsig-textin/xparse-skills

核心是兩樣東西:

  • SKILL.md——告訴 Agent 什么時候觸發文檔解析、怎么路由

  • xparse-cli——Go 編寫的跨平臺二進制工具,底層調用 TextIn xParser API

整個工作流如下圖:


用戶說一句話 → Agent 自動識別是文檔任務 → 觸發 xparse-parse Skill → 調用 xparse-cli → 根據有無憑證自動走免費/付費 API → 返回 Markdown 或 JSON。

全程你不用寫一行代碼,甚至不用知道 xparse-cli 怎么用

安裝方式

方式一:對話框一句話安裝

在 Agent 對話框直接說:

幫我從技能市場安裝 intsig-textin/xparse-parser

方式二:npx 命令安裝(強烈推薦)

npx skills add intsig-textin/xparse-skills

我最推薦這種方式,比較優雅


而且還可以一鍵安裝到所有 Agent 工具中


憑證配置只要一條命令:

xparse-cli auth

按提示輸入 App ID 和 Secret Code,保存到~/.xparse-cli/config.yaml,后續自動讀取

也支持環境變量方式(適合 CI/CD):

export XPARSE_APP_ID=your_app_id
export XPARSE_SECRET_CODE=your_secret_code
用法

在 OpenClaw、Claude Code 等 Agent 平臺安裝 xparse-parser Skill 后,只需自然語言指令即可完成解析全流程

例如:

  • “幫我讀一下這份PDF合同,提取關鍵條款”

  • “把這個報告轉成Markdown,保存到桌面”

  • “這份加密PDF密碼是123456,幫我解析前10頁”

  • “提取這張表格圖片里的內容,輸出JSON”

核心命令詳解

這里大家了解就行了,其實配置好 Skills之后,完全不需要記住這些

# 最基礎:解析 PDF,輸出 Markdown 到終端
xparse-cli parse report.pdf

# 輸出結構化 JSON
xparse-cli parse report.pdf --view json

# 保存到目錄(自動命名為 report.md / report.json)
xparse-cli parse report.pdf --output ./result/

# 保存到指定文件
xparse-cli parse report.pdf --output parsed.md

# 只解析指定頁碼范圍(支持多段)
xparse-cli parse report.pdf --page-range 1-5
xparse-cli parse report.pdf --page-range 1-2,5-10

# 解析加密 PDF
xparse-cli parse secret.pdf --password mypassword

# 獲取字符級坐標和置信度(做人工核驗時用)
xparse-cli parse report.pdf --view json --include-char-details --output ./parsed.json

值得注意的是,CLI默認已經開啟了一套完整的解析能力,不需要額外配置:

能力

標題層級

自動識別文檔結構,最多 5 級標題

表格結構

HTML 格式保留單元格層級

圖片提取

內嵌圖片識別和提取

目錄樹

自動生成文檔 TOC

分頁結果

頁面級元數據

唯一需要手動開啟的是--include-char-details(字符坐標),因為這個會大幅增加返回數據量,按需開啟

幾個實用進階玩法

① 管道組合,直接喂給 LLM

# 解析后搜索關鍵詞
xparse-cli parse report.pdf | grep "revenue"


# 解析完直接喂給 LLM 總結
xparse-cli parse paper.pdf | llm "summarize this paper"

② 批量處理

# 準備一個文件列表 files.txt,一行一個路徑
xparse-cli parse --list files.txt --output ./results/

③ 從解析結果里下載圖片

# 先解析為 JSON
xparse-cli parse report.pdf --view json --output result.json


# 再從 JSON 里批量下載所有圖片
xparse-cli download --from result.json --output ./images/

④ 私有化部署

如果是私有部署的 TextIn 服務,可以通過--base-url指定:

xparse-cli parse report.pdf --base-url https://your-private-server.com
總結

xparse-parse Skill 這個組合,我覺得把文檔解析這件事做到了目前最低門檻的狀態:

適合你用的場景:

  • 用 Agent 做個人知識管理,原料里有大量 PDF/Word/PPT

  • 搭建 RAG 知識庫,需要高精度的文檔結構化

  • 日常工作要解析合同、財報、研報這類復雜文檔

優缺點直說:

評價

? 零代碼零門檻

說話就能用,適合所有技術水平

? 復雜表格能力強

跨頁拼接、合并單元格、無線表格都不虛

? 免費額度夠用

PDF+ 圖片 1000 頁/天,輕度使用完全夠

? 管道/批量支持

可與 LLM、腳本組合,適合自動化流水線

?? Word/PPT/Excel 需付費

免費版只有 PDF 和圖片

?? 免費版 10MB 限制

大型 PDF 需要付費賬戶

制作不易,如果這篇文章覺得對你有用,可否點個關注。給我個三連擊:點贊、轉發和在看。若可以再給我加個,謝謝你看我的文章,我們下篇再見!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
為啥末代皇帝往往是昏君 看網友分析 思想境界都上了一個大臺階

為啥末代皇帝往往是昏君 看網友分析 思想境界都上了一個大臺階

侃神評故事
2026-04-23 15:40:03
剛剛宣布:加息25個基點

剛剛宣布:加息25個基點

中國基金報
2026-04-23 18:34:59
伊朗用血淚給中國換來了教訓:最大的敵人,并不是美國和以色列

伊朗用血淚給中國換來了教訓:最大的敵人,并不是美國和以色列

墨印齋
2026-04-23 15:42:00
嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

嗜賭成性只是冰山一角,婚內出軌、睡有婦之夫,體壇丑聞毀三觀

夢想總會變成真
2026-04-23 01:11:47
5月1日起全面嚴查!在職退休無一例外,這5類人好日子到頭了

5月1日起全面嚴查!在職退休無一例外,這5類人好日子到頭了

細說職場
2026-04-23 10:38:58
李小冉的顏值被嚴重低估了!董潔、湯唯和她合影,都黯然失色了

李小冉的顏值被嚴重低估了!董潔、湯唯和她合影,都黯然失色了

八斗小先生
2026-04-23 16:31:41
霍汶希力挺張敬軒僅6天后續:英皇全藝人遭集體抵制 態度一邊倒

霍汶希力挺張敬軒僅6天后續:英皇全藝人遭集體抵制 態度一邊倒

觀察鑒娛
2026-04-23 12:01:07
上海地鐵站內,這個“高素質”習慣爆發沖突!上海已叫停多年!很多人改不過來……

上海地鐵站內,這個“高素質”習慣爆發沖突!上海已叫停多年!很多人改不過來……

環球網資訊
2026-04-23 11:11:44
拜合拉木談安東尼奧:沒有他選我進國青,可能我還在內蒙踢

拜合拉木談安東尼奧:沒有他選我進國青,可能我還在內蒙踢

懂球帝
2026-04-23 23:24:51
個人微信建了600多個工作群,離職時賬號歸誰

個人微信建了600多個工作群,離職時賬號歸誰

現代快報
2026-04-23 13:49:11
意大利體育部長:意大利遞補參加世界杯既不可能,也不合適

意大利體育部長:意大利遞補參加世界杯既不可能,也不合適

懂球帝
2026-04-23 22:18:05
泰國潑水節一名15歲少女遭軍人尾隨進公廁性侵,監控曝光,嫌疑人已投案自首,將被移送軍事法庭

泰國潑水節一名15歲少女遭軍人尾隨進公廁性侵,監控曝光,嫌疑人已投案自首,將被移送軍事法庭

揚子晚報
2026-04-21 22:25:47
大衣哥再登熱搜!高鐵站席地而坐刷手機,衣著樸素、毫無明星架子

大衣哥再登熱搜!高鐵站席地而坐刷手機,衣著樸素、毫無明星架子

火山詩話
2026-04-23 16:00:38
99年我在守水庫,遇到一個道士借宿,他走時叮囑我,最近先別下山

99年我在守水庫,遇到一個道士借宿,他走時叮囑我,最近先別下山

千秋文化
2026-04-20 19:50:05
“特朗普說什么都沒用” 德黑蘭掛起巨幅海報宣告“永久控制”霍爾木茲海峽

“特朗普說什么都沒用” 德黑蘭掛起巨幅海報宣告“永久控制”霍爾木茲海峽

新華社
2026-04-23 21:27:51
整整26年的太子,僅僅6個月的皇帝,換來5個月的太上皇

整整26年的太子,僅僅6個月的皇帝,換來5個月的太上皇

鶴羽說個事
2026-04-23 22:29:23
扮豬吃虎?忍耐四個月,委代總統撕破偽裝,率幾十萬大軍硬剛美國

扮豬吃虎?忍耐四個月,委代總統撕破偽裝,率幾十萬大軍硬剛美國

健身狂人
2026-04-23 17:45:54
比亞迪在馬來西亞的東盟首個整車基地已全面停工,項目陷入僵局

比亞迪在馬來西亞的東盟首個整車基地已全面停工,項目陷入僵局

流蘇晚晴
2026-04-22 19:05:45
伊朗戰事未停,五角大樓先“斬”海軍部長:“沒認清誰是老大”的代價

伊朗戰事未停,五角大樓先“斬”海軍部長:“沒認清誰是老大”的代價

上觀新聞
2026-04-23 16:28:28
伊朗斷網50多天,創下一個世界紀錄,是怕美國還是怕老百姓?

伊朗斷網50多天,創下一個世界紀錄,是怕美國還是怕老百姓?

云舟史策
2026-04-24 07:30:43
2026-04-24 09:27:00
Ai學習的老章 incentive-icons
Ai學習的老章
Ai學習的老章
3348文章數 11139關注度
往期回顧 全部

科技要聞

馬斯克喊出"史上最大產品",但量產難預測

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

頭條要聞

女子網購1450單又退貨1450單 老板娘盤點后稱損失12萬

體育要聞

給文班剃頭的馬刺DJ,成為NBA最佳第六人

娛樂要聞

王大陸因涉黑討債被判 女友也一同獲刑

財經要聞

19家企業要"鋁代銅",格力偏不

汽車要聞

預售30.29萬起 嵐圖泰山X8配896線激光雷達

態度原創

數碼
本地
親子
教育
公開課

數碼要聞

榮耀新平板發布,全球最薄OLED,起步價3499元

本地新聞

SAGA GIRLS 2026女團選秀

親子要聞

法國寶媽在網上偷偷賣自己的奶!暗訪“母乳黑市”:細菌、乙肝……這能放心喝?

教育要聞

相似無刻度直尺作圖,一個視頻學會!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版