為什么大部分AI知識工具都要求你把文件上傳到他們的服務(wù)器?我試過了幾乎所有主流產(chǎn)品,法律合同、研究筆記、個人日記——這些內(nèi)容都要離開你的電腦,跑進某個公司的推理后端里轉(zhuǎn)一圈。隱私上的妥協(xié)讓我一直不太舒服。
這個念頭最終推動我做出了Knovex。它是一個完全運行在本機上的桌面知識庫,文件不需要上傳云端,不需要訂閱費,也不會泄露數(shù)據(jù)。把文檔拖進去,直接提問,然后學(xué)東西——這就是全部的工作流。如果你對動手跑代碼不感興趣,可以直接跳去看成品:tailorgunjan93.github.io/knovex。
![]()
本地優(yōu)先原則把威脅模型徹底換掉了。你的文件不會離開機器,除非你自己主動打開云端功能。應(yīng)用完全離線可用——配上Ollama就能實現(xiàn)零網(wǎng)絡(luò)環(huán)境的問答。所有API密鑰用Fernet AES-128加密后存放在本地磁盤上,只有當(dāng)前操作系統(tǒng)賬戶才能解密讀取。這套約束反而逼出了更好的工程方案:當(dāng)云端后端不再成為選項,你就只能把本地技術(shù)棧打磨到真正可用的速度。
![]()
在架構(gòu)上,Knovex是完全解耦的三層設(shè)計。最外層是Electron 33桌面殼,里面跑著React 18加MUI v6和TypeScript構(gòu)建的前端界面,狀態(tài)管理靠TanStack Query v5和Zustand。前端與本地后端通過REST和SSE協(xié)議通信,地址是localhost:8765。中間層是FastAPI配Python 3.11,集成了我此前做的docnest-ai混合RAG引擎,數(shù)據(jù)存儲采用SQLite WAL模式加FTS5全文檢索,多模型接入則通過LiteLLM這座橋來統(tǒng)一調(diào)度。
前端在這里定位很純粹——它只是一個API消費者,完全不知道什么是RAG、什么是嵌入向量、什么是大語言模型。所有智能邏輯都封裝在Python后端里。這種切分讓組件獨立替換變得異常順暢。選擇Electron雖然經(jīng)常被人抱怨體積臃腫,但對于一個隱私優(yōu)先的桌面應(yīng)用來說,我認為這是正確的技術(shù)決策。單一安裝包就把PyInstaller打包的后端二進制、前端資源和Electron外殼全部塞進一個exe、dmg或AppImage文件里,最終體積在85到92 MB之間。不算小,但用戶拿到手后是零配置啟動——不需要裝Python,不需要裝Node,也不需要任何命令行操作。
RAG引擎這部分,我沒有用簡單粗暴的切片策略——那種每512個字符切一刀、然后直接向量化、再祈禱檢索命中的做法,在實際文檔面前幾乎一定會翻車。docnest-ai走的是一條6階段標(biāo)準化流水線:先用Docling或PyMuPDF做結(jié)構(gòu)抽取,把標(biāo)題層級、表格、列表這些骨架信息完整保留下來;緊接著是章節(jié)分配,每個標(biāo)題都會變成一個可導(dǎo)航的section節(jié)點;表格歸一化環(huán)節(jié)把表格轉(zhuǎn)成包含標(biāo)題、表頭、行數(shù)據(jù)的JSON結(jié)構(gòu),列上下文不會丟失;后續(xù)還有元數(shù)據(jù)注入、語義分段和質(zhì)量校驗這三個環(huán)節(jié),確保進入向量庫的每一塊內(nèi)容都帶著足夠的結(jié)構(gòu)信息。
在桌面應(yīng)用里跑完整RAG流水線,性能挑戰(zhàn)主要集中在兩個方面。一個是首次索引的速度,大文檔進來后結(jié)構(gòu)抽取和向量化需要時間,但這是離線一次性成本。另一個是檢索延遲,SQLite FTS5做關(guān)鍵詞召回加上向量相似度搜索,在本地硬件上從接收問題到返回答案,整體響應(yīng)可以控制在合理范圍內(nèi)。如果你有GPU,向量化環(huán)節(jié)還能進一步加速。整個過程中,沒有任何網(wǎng)絡(luò)請求發(fā)出去——所有計算都在本機完成。
回過頭看這個項目,本地優(yōu)先路線帶來的不僅是隱私上的安心感,還有一個意料之外的收獲:當(dāng)整個系統(tǒng)的性能瓶頸完全暴露在自己電腦上時,你對RAG流水線每個環(huán)節(jié)的計算開銷會形成非常具體的直覺。這種體感是在云端架構(gòu)里很難建立的。Knovex目前在GitHub上開源,如果你也有不想上傳云端的文檔,或許它會是個趁手的工具。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.