網易首頁 > 網易號 > 正文申請入駐

這款本地部署工具，把視頻一鍵變成專屬文字筆記

2026-04-30 10:15:31　來源: 星哥玩云

廣東舉報

分享至

刷到干貨滿滿的視頻想整理成筆記，回頭卻沒精力重溫？聽了優質播客想留存內容，卻被各類轉寫工具的付費、注冊門檻勸退？擔心把音視頻上傳第三方平臺泄露隱私，只能放棄整理？如果你也有這些煩惱，那今天星哥要分享的這款工具，絕對能精準解決你的痛點！

AI-Media2Doc

主要功能：一鍵將音視頻轉化為小紅書/公眾號/知識筆記/思維導圖/視頻字幕等各種風格的文檔。

AI 視頻圖文創作助手是一款 Web 工具, 基于 AI 大模型, 一鍵將視頻和音頻轉化為各種風格的文檔, 無需登錄注冊, 前后端本地部署，以極低的成本體驗 AI 視頻/音頻轉風格文檔服務。

在 AI 工具滿天飛、動輒收費訂閱、還總惦記用戶數據的當下，有一款叫 AI-Media2Doc 的開源項目顯得格外 “清流”。它沒有花里胡哨的噱頭，核心功能簡單又實在 —— 把視頻或音頻一鍵轉換成文字文檔，還能適配多種排版風格，滿足不同場景的筆記需求。

不管是想把 YouTube 時間管理視頻轉成知識卡片，還是把深度訪談播客生成帶時間戳的字幕存檔，甚至想讓生成的文檔自動配上關鍵幀截圖，它都能搞定。更貼心的是，如果你有自己的寫作習慣，還能修改前端提示詞，讓輸出內容完全貼合你的風格。

AI-Media2Doc優勢

市面上轉寫工具不少，但 AI-Media2Doc 的核心優勢，讓它從一眾工具里脫穎而出：

? 開源免費無套路 ：基于 MIT 協議，代碼完全公開，不用花一分錢，也沒有隱藏收費項，誰都能用、誰都能根據需求修改；
? 隱私安全拉滿格 ：無需注冊賬號，所有音視頻文件都在本地處理，不會上傳到任何云端服務器，任務記錄也只存在你的電腦里，徹底告別隱私泄露風險；
? 部署簡單易上手 ：只要你的電腦裝了 Docker，跟著步驟走，克隆代碼、配置環境、啟動服務，三行命令就能跑起來，哪怕是普通用戶，跟著作者的詳細教程也能搞定；
? 離線也能正常用 ：語音識別依托本地 fast-whisper 模型，不用聯網也能完成轉寫，斷網環境下也不耽誤整理筆記；
? 還能加密碼保護 ：如果部署在 NAS 或內網，可設置訪問密碼，避免工具被他人濫用，安全感拉滿。

安裝AI-Media2Doc

雖然對新手來說，部署過程有一點點門檻，但作者在 GitHub 上把步驟寫得明明白白，跟著操作基本不踩坑：

1. 先安裝 Docker（Windows 用戶建議用 WSL）；
2. 克隆項目代碼，進入對應目錄，復制并配置 variables.env 文件（用在線 API 就填模型密鑰，想純本地用就留空）；
3. 配置大模型和密鑰、 variables.env 配置文件等
4. 執行 make run 或 docker-compose 啟動命令，
5. 打開瀏覽器訪問本地地址，就能開始使用。

1.安裝Docker

省略

2.克隆項目代碼

                                                           git clone https://github.com/hanshuaikang/AI-Media2Doc.git
cd AI-Media2Doc


 查看文件：
ll
total 36
drwxr-xr-x 6 root root  254 Feb  5 23:34 backend
-rw-r--r-- 1 root root  412 Feb  5 23:34 docker-compose.yaml
drwxr-xr-x 3 root root   39 Feb  5 23:34 docs
drwxr-xr-x 4 root root  212 Feb  5 23:34 frontend
-rw-r--r-- 1 root root 1063 Feb  5 23:34 LICENSE
-rw-r--r-- 1 root root  498 Feb  5 23:34 Makefile
-rw-r--r-- 1 root root 4562 Feb  5 23:34 README_EN.md
-rw-r--r-- 1 root root 9402 Feb  5 23:34 README.md
-rw-r--r-- 1 root root  374 Feb  5 23:34 variables_template.env

3.配置大模型

參考主要用的是火山的，星哥用自己常用的騰訊云OSS和硅基流動

參考：https://github.com/hanshuaikang/AI-Media2Doc/blob/main/backend/README.md

                                                           
cp variables_template.env variables.env

 vi variables.env

 :填
MODEL_ID=xxx
# 申請的大模型APIKEY
LLM_API_KEY=xxx

 STORAGE_ACCESS_KEY=xxx
STORAGE_SECRET_KEY=xxx
STORAGE_ENDPOINT=xxx
STORAGE_REGION=xxx
STORAGE_BUCKET=xxx

 AUC_APP_ID=xxx
AUC_ACCESS_TOKEN=xxx
AUC_CLUSTER_ID=XXX
# 如果不需要密碼訪問，請留空或者刪除此行
WEB_ACCESS_PASSWORD=
# 默認使用字節火山方舟的大模型服務
LLM_BASE_URL=https://ark.cn-beijing.volces.com/api/v3

4.執行啟動

如果本機的8080端口被占用可以修改docker-compose.yaml文件

                                                           $ cat docker-compose.yaml
services:
  backend:
    image: hanshugithub/ai-media2doc-backend:latest
    env_file:
      - "variables.env"
    deploy:
      mode: replicated
      replicas: 1
    ports:
      - "8080:8080"


   frontend:
    image: hanshugithub/ai-media2doc-frontend:latest
    deploy:
      mode: replicated
      replicas: 1
    environment:
        - VITE_API_BASE_URL=http://localhost:8080
    ports:
      - "5173:5173"
$ docker-compose -f docker-compose.yaml up -d

5.瀏覽器使用

瀏覽器訪問ip+端口

視頻變讀書筆記

比如你看了一個關于時間管理的 YouTube 視頻，用它轉成文字后，可以快速提煉出核心觀點，做成自己的知識卡片。

總結

這個項目的作者，其實就是個愛讀書、愛記筆記的普通用戶，因為找不到趁手的工具，干脆自己動手開發了一款。他說 “不想在互聯網上注冊太多賬號”，這話星哥特別有共鳴。

現在很多工具，總想著堆砌 AI 功能、搞訂閱制、收集用戶數據，反而忘了工具的本質是解決問題。而 AI-Media2Doc 走了相反的路：輕量、透明、尊重用戶，哪怕你只是偶爾用一次，也能感受到它的貼心。

如果你也厭倦了那些復雜又 “套路” 的智能工具，想擁有一款真正屬于自己的視頻轉筆記神器，不妨試試 AI-Media2Doc（GitHub 地址：https://github.com/hanshuaikang/AI-Media2Doc）。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.