網易首頁 > 網易號 > 正文 申請入駐

智源ArXiv CLI重磅開源!2億+開放論文,即將化身科研智能體的技能包

0
分享至


作者 | 智源研究院

DeepXiv 是專為智能體設計的科技文獻基礎設施,把論文搜索、漸進式閱讀、熱點追蹤和深度調研變成可調用、可編排、可自動化的能力。

它做的不是把論文網站搬到命令行,而是把科技文獻本身轉化為智能體可以直接消費的數據接口與技能系統。

DeepXiv 由智源研究院聯合高校與社區開發者共同研發,項目現已開源并免費開放使用。

資源鏈接
GitHub:https://github.com/DeepXiv/deepxiv_sdk
PyPI:https://pypi.org/project/deepxiv-sdk/
API 文檔:https://data.rag.ac.cn/api/docs
技術報告:https://arxiv.org/abs/2603.00084

引 言

隨著大模型智能體的快速發展,由 AI 驅動的自動化科研(Autonomous Research)正從概念快步走進現實。

從自動發現科學問題、生成研究計劃,到設計理論方法、開展實驗探究,科研智能體正在全流程、根本性地重塑科學研究的范式。

然而,要讓智能體真正服務于科學研究,一個基礎性的技術瓶頸亟待解決:智能體如何高效地使用科技文獻?

智源研究院率先洞察這一核心痛點:今天,科技文獻的利用方式仍然是為人類用戶設計的。在傳統模式下,智能體必須通過繁瑣的互聯網搜索及網頁解析才能獲取相關論文,還需進一步借助復雜的閱讀工具,才能從高度視覺化的論文中提取有效信息。

這套基于搜索引擎(Search Engine)與圖形用戶界面(GUI)的基礎設施,與智能體的工作方式高度不符,嚴重制約了智能體的工作效果與執行效率。

換句話說,我們坐擁海量開放科技文獻,卻缺少一套面向智能體的"科技文獻基礎設施"。

  • 如果說過去的論文僅僅是"給人看的",那么現在,論文需要兼顧"給智能體看"這一全新需求。*

一個行之有效的做法是:讓論文成為 CLI,使智能體可以方便地獲取并加以利用。

因此,智源研究院聯合高校與開源社區攻堅突破,提出讓論文適配 CLI 交互、搭建專屬文獻基礎設施的核心思路,打通海量開放論文與智能體的銜接壁壘,為自動化科研筑牢核心基礎設施底座。


DeepXiv

DeepXiv是面向智能體的科技文獻綜合性工具集,其目標是讓開放科技文獻從"人類可讀"升級為"智能體可用"。

為此,DeepXiv 提供三大核心能力。

數據接入:把開放科技文獻

變成"智能體可消費的數據"

DeepXiv 可接入對智能體友好的數據格式,如 JSON / Markdown 原生支持。論文數據變得直接可讀、可用,智能體不再需要從復雜的 PDF 及 HTML 文件中"艱難扒取信息"。此外,智能體還可以直接獲取標題、作者、摘要、參考文獻等元信息,使論文利用更加便捷。

同時,對智能體而言,真正的考驗不僅是如何獲取信息,而是如何在有限上下文和有限推理預算下,精準地利用信息。圍繞這一點,DeepXiv 提供了面向智能體優化的數據組織方式。如在預覽(Preview)層面,DeepXiv 先快速獲取論文核心信息,低成本判斷相關性;再通過分塊(Chunking)功能按結構或語義切分論文內容,支持論文局部精讀;在整體閱讀過程中,DeepXiv 還會實現漸進披露(Progressive Disclosure):先看少量、再按需展開,避免一次性灌入整篇長文。

這些設計帶來的價值非常直接:降低 token 消耗、提升檢索與閱讀效率,同時支持復雜多步科研任務,讓智能體得以專注于真正有價值的信息。

這并不是一種停留在理念層面的設計,而是可以直接落到具體調用方式中。圍繞一個新研究主題,智能體最自然的動作不是一開始就把整篇論文全部讀完,而是先搜索候選文獻,再快速判斷是否值得繼續投入更多上下文預算,最后只展開真正關鍵的部分。例如:

deepxiv paper 2602.16493 --section "Experiments"       # 只讀實驗部分

這組命令對應的正是一個非常貼近真實研究過程的文獻利用路徑:

  • search 先找候選論文,

  • --brief 預覽論文核心信息,用極低成本判斷論文價值,

  • --head 幫助智能體掌握全文結構與章節分布,

  • --section 讓 Agent 按需讀取 Introduction、Method、Experiments 這類最有價值的內容。其結果并不是簡單地"少讀一點",而是讓智能體真正具備按信息價值分配 token 預算的能力。

Deepxiv 返回的論文內容,是完成解析的 markdown 或 json 格式,Agent 閱讀無壓力!比如下面就是 --brief 和 --head 命令的返回內容。

[research paper] MMA introduces a memory-level reliability framework that dynamically scores retrieved items using source credibility, temporal decay, and conflict-aware network consensus to mitigate overconfidence from stale or inconsistent memories. It reveals the 'Visual Placebo Effect'—where RAG agents generate unwarranted certainty from ambiguous visual inputs due to latent biases in foundation models—and demonstrates superior performance onFEVER (35.2% lower variance), LoCoMo (higher actionable accuracy, fewer wrong answers), and MMA-Bench (41.18% Type-B accuracy vs. 0.0% baseline) under epistemic-aware evaluation protocols that reward abstention and penalize overconfidence.deepxiv paper 2602.16493 --head 命令返回示例

}

DeepXiv 已覆蓋全量 ArXiv 數據,并保持每日增量更新。

與此同時,DeepXiv 正在快速擴展至更多開放文獻源,包括 PubMed Central (PMC)、ACM、bioRxiv / medRxiv / ChemRxiv 等各類 *Rxiv,以及 Semantic Scholar,最終建立覆蓋超過 2 億篇開放科技文獻的統一智能體接入層。

這種擴展并不會停留在"數據收進來了"這一層,而是會繼續沿用面向智能體的統一服務方式對外提供。例如,在 PMC 場景下,智能體同樣可以通過類似的命令直接獲取論文內容:

deepxiv pmc PMC544940                                  # 查看全文 json

這意味著,隨著更多開放文獻源被接入,智能體面對的并不會是一組彼此割裂、調用方式各異的新接口,而仍然是一套可復用、可遷移、可自動化編排的文獻利用方式。換句話說,未來無論是 ArXiv、PMC,還是更多 *Rxiv 與 OA 數據源,都會盡可能以一致的方法向智能體持續開放服務能力。

一站式能力集成:不只是檢索,

更是"幫智能體做事"

DeepXiv 自建有專屬的論文搜索引擎,提供優化的檢索結果及可配置的搜索模式。當然,僅僅把論文"搜出來"遠遠不夠。基于搜索能力,DeepXiv 進一步打造了更豐富的技能:在問答能力層面DeepXiv 可圍繞文獻直接完成信息提取與理解,例如:"論文的核心貢獻是什么?""實驗設置和對比基線是什么?",實現對文獻的深入理解;同時 DeepXiv 還可實現熱點追蹤,了解每天 / 每周 / 每月關于某一主題的熱點論文有哪些?;在面向復雜問題時,DeepXiv 還將開展深入研究,例如:"過去三年關于 Agent Memory 的代表性工作有哪些?""多模態檢索增強在金融場景中的公開基準及數據集有哪些?"

DeepXiv 的技能包仍在持續擴展,智能體可通過其內置 Skills 以及命令行 --help 機制進行感知并靈活調用。

這種"不只是檢索,更是圍繞任務去調用能力"的特點,在實際使用時會更明顯。比如,一個很典型的熱點追蹤流程,可以簡單到下面這樣:

deepxiv pmc PMC544940                                  # 查看全文 json

先抓出近一周最熱的論文池,再快速預覽單篇論文內容,并補上它在社交媒體上的傳播熱度。接下來,智能體就可以順著這條鏈路繼續完成摘要、篩選、排序與生成周報。

而如果任務是進入一個新研究主題,流程同樣可以非常直接:

deepxiv paper 2506.07398 --section Experiments       # 精讀關鍵章節

先找到候選論文,再查看結構,最后只讀取最關鍵的實驗部分。必要時,智能體還可以繼續調用互聯網搜索補充通用 Web 信息,或者基于 Semantic Scholar 數據庫獲取論文元數據。也就是說,DeepXiv 提供的不是孤立命令,而是一套可被智能體連續調用的科研任務能力集。

deepxiv sc 161990727                                  # 獲取 semantic scholar 元數據

如果希望進一步把這些能力直接收束成一個可交付任務,DeepXiv 還內置了深度調研 Agent。它可以把搜索、篩選、漸進式閱讀、信息提取與歸納整理串成一條完整鏈路,讓用戶不必自己手動拼接每一步調用。例如,開發者可以直接讓它回答"最近關于 Agent Memory 的代表性工作有哪些?"或者"過去一年有哪些值得關注的多模態檢索增強論文?" 這使得 DeepXiv 不僅能提供底層命令,更能直接承接一部分高層科研任務。 當然,用戶也可把 DeepXiv 直接封裝成 Skills,注入任意 Agent,快速開始 Agent 研究工作。

deepxiv agent query "What are the latest papers about agent memory?" --verbose  # 開始深度調研

豐富的接入形式:適配從智能體到

開發者的全場景需求

DeepXiv 并不將自己限定為一個單點工具,而是提供多種接入形態,滿足從智能體到開發者的多層需求。

首先,CLI 是 DeepXiv 的核心形態。通過命令行,智能體可以無縫接入文獻搜索、論文獲取、論文利用等全部能力,并通過編排運行腳本實現更復雜的工作流。

deepxiv search "memory agents long-horizon" --date-from 2026-03-02 --limit 50 --format json

其次,DeepXiv 同樣提供 MCP 接入能力,這意味著你可以將 DeepXiv 嵌入各類智能體開發框架,讓"科技文獻利用"成為智能體的標準工具。

再者,對于需要深度定制工作流的開發者,DeepXiv 也提供 Python SDK,使之靈活集成于高度定制化的科研智能體。

更重要的是,基于 deepxiv,開發者可以非??焖俚胤庋b出一批面向具體科研任務的定制化 Skills。比如,每周自動追蹤某個方向的新論文、自動篩出帶開源代碼的工作、批量抽取實驗設置與結果、生成某個主題的 baseline 表格,甚至持續維護某個研究方向的動態知識庫。這意味著,DeepXiv 不只是提供一個"可調用的工具",而是在為日常科研工作流提供一層可快速復用、可持續擴展的能力底座。

實戰演示:讓 Codex 整理 30 天內

Agent Memory 相關論文信息

如果說前面這些能力描述的是 DeepXiv 能做什么,那么更能體現它價值的,其實是它如何在一次真實任務中把這些能力串起來。

下面這個 demo,對應的是一個非常典型、也非常高頻的科研需求:

幫我整理最近 1 個月 agent memory 相關 paper,看看都在什么數據集上跑的,效果如何,有沒有開源。

這個任務看起來像是"找幾篇論文總結一下",但真正做起來,通常會包含一整條鏈路:先確定時間范圍,限定最近一個月。再圍繞主題做搜索,并處理噪聲結果,并對候選論文逐篇預覽,篩掉只是詞面相關但主題不符的工作。在找到真正 relevant 的論文后,繼續查看結構與實驗章節,并提取 benchmark、metrics、score、code link 等關鍵信息,最后整理成一張可交付、可繼續編輯的 markdown baseline 表。

如果沒有面向智能體的數據與工具支持,這個過程往往意味著來回切網頁、翻 PDF、復制粘貼、再人工整理成表格。而在 DeepXiv 的工作流里,這件事可以被拆解成一組非常自然的動作。

第一步:按主題與時間范圍

搜索候選論文


首先,智能體會圍繞用戶主題做多個近義搜索,而不是只押寶一個 query:

這樣做的好處是,智能體可以先盡可能召回足夠多的候選論文,再在后續步驟里用更低成本的方式逐步收縮范圍。

在這一步里,它很快就能找到像 AdaMem、All-Mem、D-MEM、Memex(RL)、AndroTMem、LMEB 這類高相關論文,同時也能識別出一些只是沾到關鍵詞、但其實不屬于 agent memory 主線的結果。

第二步:先用 brief 做低成本篩選


搜索出來的結果,沒必要一上來就整篇通讀。更合理的做法是先預覽:

deepxiv paper 2603.18429 --brief

--brief 會把標題、時間、TL;DR、關鍵詞、GitHub 鏈接等最關鍵的信息先拿出來。對智能體來說,這一步的價值非常大,因為它可以用極低的 token 成本完成第一輪判斷:比如說“這篇論文到底是不是在做 agent memory”、“它是方法論文、benchmark 論文,還是更偏系統 / 治理架構”、“有沒有 GitHub,值不值得優先繼續讀”?

也正是在這一層,智能體可以快速把候選論文拆成主集合和次集合,避免在一堆邊緣相關結果上浪費預算。

第三步:用 head 看結構,再只讀實驗相關章節


篩出真正 relevant 的論文之后,下一步不是"把全文喂進去",而是先看結構,再定點讀?。?/p>

deepxiv paper 2603.18429 --brief

這一步對應的是一個非常像人類研究者的過程:比如人類研究者會先看這篇論文有哪些章節,確認實驗部分叫什么,再只展開 Experiments、Results、Evaluation 這種真正有 benchmark 和 score 的內容。如果有需要,再補讀 Appendix 中的數據集或實驗設置部分。


例如,在這次任務中,智能體就從實驗章節里提取到了很多直接可比較的信息:

  • AdaMem 在 LoCoMo 和 PERSONAMEM 上評測,LoCoMo 最高到 44.65 F1,PERSONAMEM 平均準確率 63.25%

  • AndroTMem 提出 AndroTMem-Bench,并比較 raw history、summary、ASM 三種 history 表示,像 Gemini-3-Flash 在 ASM 下可達到 AMS 59.03 / TCR 65.05

  • Memex(RL) 在改造后的 ALFWorld 上,把任務成功率從 24.22% 提升到 85.61%

  • Trajectory-Informed Memory Generation 在 AppWorld 上把 held-out 場景的 SGC 從 50.0 拉到 64.3

  • LMEB 作為 benchmark 則匯總了 22 個數據集、193 個 zero-shot retrieval 任務

換句話說,DeepXiv 在這里提供的不是"把論文內容給出來"這么簡單,而是讓智能體可以按照"先粗篩、再結構化定位、最后定點精讀"的方式去消費文獻。

第四步:自動落成 markdown baseline 表


當論文、數據集、指標、分數和開源狀態都被提取出來后,最后一步就是把它整理成結構化交付物。

在這次 demo 里,智能體最終把結果寫成了一份 markdown 表格,包含:論文標題與 arXiv 鏈接,是否開源、代碼地址,跑過哪些 benchmark / dataset,使用了什么指標,核心結果與可對比分數,對論文定位的簡短備注等內容。

這一步很關鍵,因為它意味著 DeepXiv 服務的不是一次性問答,而是一個可以繼續復用的研究資產:你可以直接把 markdown 文件繼續改寫成調研文檔、slides、周報,或者作為后續項目的 baseline 起點。

這個 skills 已經放到 project 中,可以直接使用!例如,復制到 ~/.codex/skills/ 目錄下即可在 codex 中直接喚出。

這個 demo 真正說明了什么

這個例子真正有意思的地方在于,它并不是一個"炫技式"任務,而是一個非常日常、非常真實的科研動作。

對于研究者而言,"最近一個月這個方向都出了什么工作、跑了哪些數據集、效果怎么樣、有沒有開源"本就是高頻需求。而 DeepXiv 首次以真正貼近智能體工作流的方式完成了這一任務:其搜索是結構化的,無需網頁解析;預覽是低成本的,無需通讀全文;閱讀是漸進式的,僅展開關鍵章節;提取結果面向表格與下游任務,而非停留在自然語言總結;最終輸出更可保存、可復用、可繼續擴展,成為研究過程中的中間產物。

這也正是 DeepXiv 想解決的核心問題:不是把論文"搬上命令行",而是把論文真正變成智能體可以調用、篩選、閱讀、分析、交付的一等對象。

如果說傳統論文網站服務的是"人類點開頁面然后自己讀",那么 DeepXiv 服務的則是"智能體圍繞科研任務主動調用文獻能力并完成交付"。

會議推薦

QCon 全球軟件開發大會·2026 北京站將于 4 月 16 日 -18 日正式舉辦。本屆大會以“Agentic AI 時代的軟件工程重塑”為主題,聚焦 100+ 重磅議題,匯聚來自阿里、騰訊、字節跳動、小米、百度等一線科技企業與創新團隊的技術專家,圍繞 AI 工程化、系統架構與研發模式演進展開深入探討。更多詳情可掃碼或聯系票務經理 18514549229 進行咨詢。

今日薦文

你也「在看」嗎?

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
吳宜澤載譽歸國 深夜低調抵西安 獲粉絲接機+送花 奪冠后首秀確定

吳宜澤載譽歸國 深夜低調抵西安 獲粉絲接機+送花 奪冠后首秀確定

我愛英超
2026-05-07 08:26:52
以色列代表聯合國質問,中國大使早已離席,空留椅子成國際笑柄

以色列代表聯合國質問,中國大使早已離席,空留椅子成國際笑柄

盛夏微涼
2026-05-07 07:41:44
悲催!陜西女子發帖問丈夫股票估值,大方承認“準備離婚分財產”

悲催!陜西女子發帖問丈夫股票估值,大方承認“準備離婚分財產”

火山詩話
2026-05-06 14:34:56
總比分6-5進決賽!凱恩成焦點,孔帕尼說句公道話力挺3人批評1人

總比分6-5進決賽!凱恩成焦點,孔帕尼說句公道話力挺3人批評1人

林子說事
2026-05-07 06:31:01
先把說話噴口水的毛病改改!大齡寶媽被服務員當成奶奶,反被群嘲

先把說話噴口水的毛病改改!大齡寶媽被服務員當成奶奶,反被群嘲

妍妍教育日記
2026-05-07 09:25:08
29歲趙心童近況曝光!與女友林可馨相戀4年,如今感情穩定很幸福

29歲趙心童近況曝光!與女友林可馨相戀4年,如今感情穩定很幸福

代軍哥哥談娛樂
2026-05-06 11:48:54
全球手機銷量排行出爐,第一名居然不是 iPhone 17 Pro!

全球手機銷量排行出爐,第一名居然不是 iPhone 17 Pro!

XCiOS俱樂部
2026-05-06 19:41:29
剛剛,馬斯克官宣xAI解散,22萬張GPU算力租給Anthropic

剛剛,馬斯克官宣xAI解散,22萬張GPU算力租給Anthropic

機器之心Pro
2026-05-07 10:25:42
一屋子專業演員,愣是演不過一個跨界戲子,我想說爛不是沒理由的

一屋子專業演員,愣是演不過一個跨界戲子,我想說爛不是沒理由的

一娛三分地
2026-05-05 16:47:40
伊朗必?。簽槭裁础皠倮摗敝皇亲云燮廴说幕糜X

伊朗必?。簽槭裁础皠倮摗敝皇亲云燮廴说幕糜X

民間胡扯老哥
2026-05-05 06:46:18
險些大打出手!皇馬再起沖突,巴爾韋德與楚阿梅尼爆發激烈爭吵!

險些大打出手!皇馬再起沖突,巴爾韋德與楚阿梅尼爆發激烈爭吵!

體壇關鍵幀
2026-05-07 12:09:09
如果你不開心,就去看東北人的評論區,能讓你笑出腹??!

如果你不開心,就去看東北人的評論區,能讓你笑出腹??!

夜深愛雜談
2026-04-14 15:18:00
大批“宇航員”排隊打卡內蒙烏蘭哈達火山,景區:內部環境似火星地表,牧民提供“宇航服”出租服務,休眠火山很安全

大批“宇航員”排隊打卡內蒙烏蘭哈達火山,景區:內部環境似火星地表,牧民提供“宇航服”出租服務,休眠火山很安全

極目新聞
2026-05-04 16:07:52
大雨淋濕了我的眼:分不清是雨是淚,那就當是天空在替我哭

大雨淋濕了我的眼:分不清是雨是淚,那就當是天空在替我哭

疾跑的小蝸牛
2026-05-06 20:53:18
回國才敢說:越南,竟是最被我們低估的鄰居,你真的了解它嗎?

回國才敢說:越南,竟是最被我們低估的鄰居,你真的了解它嗎?

老特有話說
2026-05-05 15:08:12
虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

虧損超1.5億!《寒戰1994》票房崩塌,我感慨:這塊金字招牌砸了

靠譜電影君
2026-05-05 10:40:44
新加坡總理哭了,無人同情!當初對中國有多狂妄,現在就多狼狽!

新加坡總理哭了,無人同情!當初對中國有多狂妄,現在就多狼狽!

混沌錄
2026-05-06 23:33:12
中國正式砍斷美式長臂,美媒集體破防:我們的制裁體系真要碎了!

中國正式砍斷美式長臂,美媒集體破防:我們的制裁體系真要碎了!

史智文道
2026-05-06 14:29:45
世乒賽奪冠概率出爐,法國居首,國乒沖12連冠遇強敵

世乒賽奪冠概率出爐,法國居首,國乒沖12連冠遇強敵

林子說事
2026-05-07 10:58:43
可怕!開放性脫臼!比我們想象的還要嚴重??!

可怕!開放性脫臼!比我們想象的還要嚴重啊!

柚子說球
2026-05-06 23:15:23
2026-05-07 12:39:00
AI前線 incentive-icons
AI前線
面向AI愛好者、開發者和科學家,提供AI領域技術資訊。
1476文章數 149關注度
往期回顧 全部

科技要聞

凌晨突發!馬斯克租22萬塊GPU給“死敵”

頭條要聞

北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

頭條要聞

北京三位女大學生青海自駕游2死1傷 傷者一審獲刑4年

體育要聞

阿森納巴黎會師歐冠決賽!5月31日開戰

娛樂要聞

小S阿雅重返大S母校,翻看大S畢業照

財經要聞

特朗普:美伊“很有可能”達成協議

汽車要聞

理想為什么不做轎車,有了解釋……

態度原創

藝術
旅游
游戲
數碼
公開課

藝術要聞

這位老教授筆下的青年,活力滿滿

旅游要聞

“五一”假期盤點:文旅消費亮點紛呈

曝《GTA6》容量或接近200GB 標準版PS5用戶硬盤告急

數碼要聞

三星筆記本版Exynos 2800芯片曝光:1.4nm十核CPU

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版