今天講一個我自己每天都在用的東西,視頻號粉絲做到 6000,每天我只手動干一件事:發布
![]()
![]()
880c0206e68697eb76d0c24d8b168c4d.jpg 起因
做視頻號之前算過一筆賬,一條 5 分鐘的口播視頻,寫稿、錄音、剪輯、加字幕、加 BGM,最快 2 小時。一周三條,光是視頻就得吞掉 6 小時
太重了,做不下去
后來我換了個思路:公眾號文章已經在寫,能不能讓 Coding Agent 把文章直接變成視頻?
折騰了幾周,把整條鏈路全打通。現在每天早上寫完公眾號,對 Agent 說一句"文章轉視頻 + 路徑",喝杯茶回來 MP4 已經躺在那里,我只需要點"發布"
一句話生成視頻,里面到底發生了什么
7 個 Agent Skills 串成一條流水線,互相調度,全程無人值守
你的文章(Markdown)
│
▼
┌─────────────────────────────────┐
│ 口播稿改寫 │
│ 把書面語改成口語,去掉代碼塊, │
│ 調整節奏,加開場白和結束語 │
│ 內部還會調用一個標題生成器 │
└─────────────────────────────────┘
│
▼
┌─────────────────────────────────┐
│ 豆包 TTS 配音 │
│ 調用 seed-icl-2.0 模型 + │
│ 你自己克隆的音色 → 輸出 MP3 │
│ 整條視頻用你自己的聲音 │
└─────────────────────────────────┘
│
▼
┌─────────────────────────────────┐
│ 火山 ASR 時間戳對齊 │
│ 把 MP3 喂給 volc.seedasr.auc, │
│ 返回每個字的出現時刻(毫秒級) │
└─────────────────────────────────┘
│
▼
┌─────────────────────────────────┐
│ Remotion 渲染豎版視頻 │
│ Node.js + Remotion + │
│ 思源宋體,文字逐字出現, │
│ 9:16 豎版,干凈利落 │
└─────────────────────────────────┘
│
▼
┌─────────────────────────────────┐
│ BGM 混音 │
│ ffmpeg 把人聲和 BGM 按比例混合 │
│ 人聲 1.0、BGM 0.15 → 成品 MP4 │
└─────────────────────────────────┘
│
▼
你只做這一步:發布
5 個 Skill,1 個標題生成器,1 個主編排 Skill,加起來 7 個文件,整條鏈路自動跑通
實測數據
1500 字公眾號文章 → 2-3 分鐘豎版視頻
渲染耗時(Apple M2/M3 本地):8-12 分鐘
每條視頻 API 成本:約 0.1 元(TTS + ASR)
字幕和聲音的同步精度:肉眼無錯位
聲音是你自己的克隆音色,不是機器音
下載到的是一個 zip 包,約 31 MB(思源宋體字體已經塞在里面,不用再單獨下)
article-to-video-skills-share.zip
├── README.md 入口導航
├── INSTALL.md 給 Coding Agent 看的安裝指引
├── PROMPT-FOR-AGENT.md 開箱即用的安裝提示詞,復制粘貼給 Agent
├── SETUP-FOR-HUMAN.md 給你看的 API 申請清單 + 費用估算
├── requirements.txt Python 依賴清單
└── skills/
├── 1-article-to-video/ 主編排 Skill,觸發詞:"文章轉視頻"
│ ├── SKILL.md
│ └── scripts/
├── 1-video-script-converter/ 口播稿改寫
│ ├── SKILL.md
│ ├── scripts/
│ ├── references/
│ └── assets/
├── 1-title_generator/ 標題生成
│ └── SKILL.md
├── 1-doubao-tts-voice-clone/ 豆包 TTS + 音色克隆
│ ├── SKILL.md
│ ├── tts_voice_clone.py
│ └── test_tts_voice_clone.py
├── 1-audio-to-video/ 火山 ASR 時間戳
│ ├── SKILL.md
│ ├── scripts/
│ └── assets/
├── 1-remotion-audio-to-video/ Remotion 渲染(含字體)
│ ├── SKILL.md
│ ├── scripts/
│ └── assets/
│ └── SourceHanSerifSC-VF.ttf 57MB,已內嵌
└── 1-video-bgm-mixer/ ffmpeg BGM 混音
├── SKILL.md
└── scripts/
所有代碼都做了脫敏處理,我的 API Key、音色 ID、品牌名、工作區路徑全部替換成占位符(${YOUR_VOICE_ID}、${YOUR_BRAND_NAME}、${WORKSPACE_ROOT}這種形式),安裝時由 Agent 引導你填上自己的值
安裝流程
解壓 zip 包
把
PROMPT-FOR-AGENT.md里那段提示詞整段復制,粘給你的 Coding AgentAgent 會問你:工作區在哪、API Key 是多少、音色 ID 填什么、品牌名叫什么
Agent 自動幫你復制 skill 目錄、替換占位符、裝 Python 依賴、裝 npm 依賴、把字體復制到系統目錄
裝完后對 Agent 說"文章轉視頻",能跑通就是 OK
整個過程 15-30 分鐘,絕大部分時間在等npm install
適合誰
已經在寫公眾號或博客,想低成本同步做視頻號
有 Coding Agent 基礎,知道 Claude Code 或 Cursor 怎么用
想用自己的聲音做視頻,不想露臉
不想每條視頻耗 2 小時
完全沒接觸過 Coding Agent,需要先去看入門教程
想做真人出鏡或剪輯花哨的視頻,這套是固定豎版字幕口播風格
不愿意配置 API Key(這套依賴火山引擎,繞不開)
500 元,一次買斷
包含:
完整的 31MB zip 包(7 個 Skill + 4 份文檔 + 字體 + Python 依賴清單)
一對一安裝答疑(48 小時內響應,把錯誤信息發我,大概率是路徑或 Key 配置問題)
加我微信備注"視頻技能包"
總結
這套東西的價值,不在于"AI 生成視頻"這個功能本身,市面上工具一抓一大把
它的價值在于:和你已經在做的事(寫公眾號)無縫銜接,復用你的聲音、你的文風、你的更新節奏,把視頻號的更新成本壓到接近于零
你寫完文章,剩下的事 Agent 全包了,你只需要做最后一件事:發布
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.