這款本地部署工具,把視頻一鍵變成專屬文字筆記
刷到干貨滿滿的視頻想整理成筆記,回頭卻沒精力重溫?聽了優質播客想留存內容,卻被各類轉寫工具的付費、注冊門檻勸退?擔心把音視頻上傳第三方平臺泄露隱私,只能放棄整理?如果你也有這些煩惱,那今天星哥要分享的這款工具,絕對能精準解決你的痛點!
AI-Media2Doc
主要功能:一鍵將音視頻轉化為小紅書/公眾號/知識筆記/思維導圖/視頻字幕等各種風格的文檔。
AI 視頻圖文創作助手是一款 Web 工具, 基于 AI 大模型, 一鍵將視頻和音頻轉化為各種風格的文檔, 無需登錄注冊, 前后端本地部署,以極低的成本體驗 AI 視頻/音頻轉風格文檔服務。
在 AI 工具滿天飛、動輒收費訂閱、還總惦記用戶數據的當下,有一款叫 AI-Media2Doc 的開源項目顯得格外 “清流”。它沒有花里胡哨的噱頭,核心功能簡單又實在 —— 把視頻或音頻一鍵轉換成文字文檔,還能適配多種排版風格,滿足不同場景的筆記需求。
不管是想把 YouTube 時間管理視頻轉成知識卡片,還是把深度訪談播客生成帶時間戳的字幕存檔,甚至想讓生成的文檔自動配上關鍵幀截圖,它都能搞定。更貼心的是,如果你有自己的寫作習慣,還能修改前端提示詞,讓輸出內容完全貼合你的風格。
![]()
AI-Media2Doc優勢
市面上轉寫工具不少,但 AI-Media2Doc 的核心優勢,讓它從一眾工具里脫穎而出:
? 開源免費無套路 :基于 MIT 協議,代碼完全公開,不用花一分錢,也沒有隱藏收費項,誰都能用、誰都能根據需求修改;
? 隱私安全拉滿格 :無需注冊賬號,所有音視頻文件都在本地處理,不會上傳到任何云端服務器,任務記錄也只存在你的電腦里,徹底告別隱私泄露風險;
? 部署簡單易上手 :只要你的電腦裝了 Docker,跟著步驟走,克隆代碼、配置環境、啟動服務,三行命令就能跑起來,哪怕是普通用戶,跟著作者的詳細教程也能搞定;
? 離線也能正常用 :語音識別依托本地 fast-whisper 模型,不用聯網也能完成轉寫,斷網環境下也不耽誤整理筆記;
? 還能加密碼保護 :如果部署在 NAS 或內網,可設置訪問密碼,避免工具被他人濫用,安全感拉滿。
雖然對新手來說,部署過程有一點點門檻,但作者在 GitHub 上把步驟寫得明明白白,跟著操作基本不踩坑:
1. 先安裝 Docker(Windows 用戶建議用 WSL);
2. 克隆項目代碼,進入對應目錄,復制并配置 variables.env 文件(用在線 API 就填模型密鑰,想純本地用就留空);
3. 配置大模型和密鑰、
variables.env配置文件等4. 執行 make run 或 docker-compose 啟動命令,
5. 打開瀏覽器訪問本地地址,就能開始使用。
省略
2.克隆項目代碼
git clone https://github.com/hanshuaikang/AI-Media2Doc.git
cd AI-Media2Doc查看文件:
ll
total 36
drwxr-xr-x 6 root root 254 Feb 5 23:34 backend
-rw-r--r-- 1 root root 412 Feb 5 23:34 docker-compose.yaml
drwxr-xr-x 3 root root 39 Feb 5 23:34 docs
drwxr-xr-x 4 root root 212 Feb 5 23:34 frontend
-rw-r--r-- 1 root root 1063 Feb 5 23:34 LICENSE
-rw-r--r-- 1 root root 498 Feb 5 23:34 Makefile
-rw-r--r-- 1 root root 4562 Feb 5 23:34 README_EN.md
-rw-r--r-- 1 root root 9402 Feb 5 23:34 README.md
-rw-r--r-- 1 root root 374 Feb 5 23:34 variables_template.env
參考主要用的是火山的,星哥用自己常用的騰訊云OSS和硅基流動
參考:https://github.com/hanshuaikang/AI-Media2Doc/blob/main/backend/README.md
4.執行啟動
cp variables_template.env variables.env
vi variables.env
:填
MODEL_ID=xxx
# 申請的大模型APIKEY
LLM_API_KEY=xxx
STORAGE_ACCESS_KEY=xxx
STORAGE_SECRET_KEY=xxx
STORAGE_ENDPOINT=xxx
STORAGE_REGION=xxx
STORAGE_BUCKET=xxxAUC_APP_ID=xxx
AUC_ACCESS_TOKEN=xxx
AUC_CLUSTER_ID=XXX
# 如果不需要密碼訪問,請留空或者刪除此行
WEB_ACCESS_PASSWORD=
# 默認使用字節火山方舟的大模型服務
LLM_BASE_URL=https://ark.cn-beijing.volces.com/api/v3
如果本機的8080端口被占用可以修改docker-compose.yaml文件
5.瀏覽器使用$ cat docker-compose.yaml
services:
backend:
image: hanshugithub/ai-media2doc-backend:latest
env_file:
- "variables.env"
deploy:
mode: replicated
replicas: 1
ports:
- "8080:8080"frontend:
image: hanshugithub/ai-media2doc-frontend:latest
deploy:
mode: replicated
replicas: 1
environment:
- VITE_API_BASE_URL=http://localhost:8080
ports:
- "5173:5173"
$ docker-compose -f docker-compose.yaml up -d
瀏覽器訪問ip+端口
![]()
視頻變讀書筆記
比如你看了一個關于時間管理的 YouTube 視頻,用它轉成文字后,可以快速提煉出核心觀點,做成自己的知識卡片。
![]()
總結
這個項目的作者,其實就是個愛讀書、愛記筆記的普通用戶,因為找不到趁手的工具,干脆自己動手開發了一款。他說 “不想在互聯網上注冊太多賬號”,這話星哥特別有共鳴。
現在很多工具,總想著堆砌 AI 功能、搞訂閱制、收集用戶數據,反而忘了工具的本質是解決問題。而 AI-Media2Doc 走了相反的路:輕量、透明、尊重用戶,哪怕你只是偶爾用一次,也能感受到它的貼心。
如果你也厭倦了那些復雜又 “套路” 的智能工具,想擁有一款真正屬于自己的視頻轉筆記神器,不妨試試 AI-Media2Doc(GitHub 地址:https://github.com/hanshuaikang/AI-Media2Doc)。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.