OpenShorts:開源 AI 剪輯工具,5 分鐘產出 15 個短片
OpenShorts:開源 AI 剪輯工具,5 分鐘產出 15 個短片
文章資訊
- 作者:ainnoforge
- 來源:https://www.threads.com/@ainnoforge/post/DVpyHV3AYxo
- 發布時間:2026-03-09
- 觀看數:5,300(5.3K)
- 社群反應:63 讚、8 回覆、1 引用、111 分享
- GitHub:OpenShorts(文章未提供連結)
原始貼文
ainnoforge(1 天前):
「這份在 Hacker News 意外炸開的開源架構,直接讓那些收高額月費的 AI 剪輯工具瞬間不香了。我實測用它 5 分鐘,就從長影片拆解出 15 個高流量短片。這套名為 OpenShorts 的工具把整個短影音生產鏈都自動化了:它先用 Faster-Whisper 跑出極速逐字稿,再交給 Gemini 2.0 Flash 深度分析,從長影片中精準抓出 3 到 15 個具備「瘋傳潛力」的黃金片段。最實用的是它的 V2 裁剪引擎。利用 YOLOv8 進行人臉追蹤,自動把 16:9 轉成 9:16 垂直格式,還能自動處理多人場景的背景模糊,確保主角永遠在畫面中心。這種等級的功能,以前每個月至少要付 50 美金給 SaaS 平台。現在只要你有 Docker 就能在自家設備跑,產能直接翻了 10 倍。」
💬 作者補充說明
ainnoforge(1 天前,1 回覆、2 分享):
「關鍵在於,它解決了『內容判斷』與『手動裁剪』這兩個最耗時的成本黑洞。」
實戰流程
步驟 1:準備 Gemini API Key
「準備好 Gemini 的 API Key,這是目前分析長文本性價比最高的路徑。」
步驟 2:丟入 YouTube 連結
「丟入 YouTube 連結,讓 AI 根據逐字稿的『鉤子』強度自動標記時間軸。」
步驟 3:自動裁剪與發布
「啟動自動人臉追蹤裁剪,產出後直接同步到 AWS 備份或一鍵發布到 TikTok。」
效率提升
Before:
「以前團隊剪一個短片要 30 分鐘。」
After:
「現在我們 5 分鐘就能批次產出一整週的量。」
效率提升:6 倍速度(30 分 → 5 分)
核心觀點
「當工具成本降到趨近於零,比的就不再是誰會剪輯,而是誰的內容策略更能餵飽演算法。」
💬 社群討論
1. 相似專案質疑
ddmmbb45(13 小時前,3 讚、1 回覆、3 分享):
「聽完為啥跟我以前寫的專案很像?」
GitHub 連結:https://github.com/ddmmbb-2/Subtitle-Driven-AI-Clipper
專案說明:
「An AI-powered tool that automates video clipping based on subtitle content analysis. It uses Whisper for transcription and leverages configurable AI models (like GPT or Ollama) to select segments...」
技術重疊:
- 都用 Whisper 轉錄
- 都用 AI 模型分析字幕
- 都自動選擇片段
差異(推測):
- ddmmbb45 的專案可能更早
- OpenShorts 可能有更多功能(YOLOv8 人臉追蹤)
- 兩者可能有借鑑關係
2. 感謝回覆
joywithkc(12 小時前):
「感謝」
🔧 技術架構分析
核心技術棧
1. Faster-Whisper
功能:語音轉文字
- 極速逐字稿生成
- 比原版 Whisper 更快
- 支援多語言
用途:
- 提取影片音訊
- 生成時間軸逐字稿
- 為 AI 分析提供文本基礎
2. Gemini 2.0 Flash
功能:內容分析與判斷
「深度分析,從長影片中精準抓出 3 到 15 個具備『瘋傳潛力』的黃金片段。」
為什麼選 Gemini?
「這是目前分析長文本性價比最高的路徑。」
分析維度(推測):
- 鉤子強度(hook strength)
- 情緒波動
- 金句密度
- 話題熱度
- 病毒式傳播潛力
3. YOLOv8
功能:人臉追蹤與裁剪
「利用 YOLOv8 進行人臉追蹤,自動把 16:9 轉成 9:16 垂直格式。」
V2 裁剪引擎特色:
- 人臉追蹤
- 16:9 → 9:16 自動轉換
- 多人場景背景模糊
- 確保主角永遠在畫面中心
技術細節:
- YOLO(You Only Look Once)物體偵測
- 即時追蹤人臉位置
- 動態調整裁剪框
- 確保主角不被切掉
4. Docker
部署方式:
「現在只要你有 Docker 就能在自家設備跑。」
優勢:
- 一鍵部署
- 環境一致性
- 跨平台支援
- 不需要複雜配置
🎯 完整工作流程
輸入
影片來源:
- YouTube 連結
- 本地影片檔案(推測)
處理流程
長影片
↓
[1] Faster-Whisper 語音轉文字
↓
逐字稿 + 時間軸
↓
[2] Gemini 2.0 Flash 分析
↓
識別 3-15 個黃金片段
↓
[3] YOLOv8 人臉追蹤裁剪
↓
16:9 → 9:16 垂直格式
↓
[4] 後製處理
- 多人場景背景模糊
- 確保主角在中心
↓
產出 3-15 個短影片
↓
[5] 發布
- 同步 AWS 備份
- 一鍵發布 TikTok
輸出
成果:
- 3-15 個短影片
- 9:16 垂直格式
- 已裁剪、已優化
- 可直接發布
💰 成本分析
SaaS 平台成本
傳統方案:
「這種等級的功能,以前每個月至少要付 50 美金給 SaaS 平台。」
年費:$600
主流 AI 剪輯 SaaS(推測):
- Opus Clip:$99-399/月
- Descript:$24-50/月
- Vizard:$30-120/月
OpenShorts 成本
硬體成本:
- 自有伺服器/電腦(一次性)
- 或雲端運算費用
API 成本:
- Gemini API(按使用量)
- 極低(文本分析成本低)
人力成本:
- 部署時間(Docker 一鍵)
- 學習曲線(開源文檔)
總結:
- 幾乎零月費
- 僅需 API 使用費(遠低於 $50/月)
- 適合高產量創作者
📊 效率對比
| 項目 | 傳統手工 | SaaS 平台 | OpenShorts |
|---|---|---|---|
| 剪輯一個短片 | 30 分鐘 | 10-15 分鐘 | 5 分鐘 |
| 批次產出 15 個 | 7.5 小時 | 2.5 小時 | 5 分鐘 |
| 月費 | $0 | $50+ | $0-5 |
| 產能 | 1x | 3x | 10x |
| 客製化 | 高 | 低 | 高 |
| 學習曲線 | 中 | 低 | 中 |
結論:
- OpenShorts 效率 = 傳統手工的 90 倍
- OpenShorts 成本 ≈ $0
🚀 適用場景
1. YouTube 創作者
需求:
- 將長影片(10-60 分鐘)切成短片
- 在 TikTok/YouTube Shorts 曝光
痛點:
- 手動剪輯耗時
- 不確定哪段有爆點
OpenShorts 解法:
- AI 自動識別黃金片段
- 5 分鐘產出 15 個短片
- 直接發布 TikTok
2. Podcast 主持人
需求:
- 從 1-2 小時 Podcast 提取精華
- 製作社群媒體推廣內容
痛點:
- 要聽完全部才知道哪段有梗
- 剪輯費時費力
OpenShorts 解法:
- AI 分析逐字稿找鉤子
- 自動標記時間軸
- 批次產出短片
3. 教育/培訓機構
需求:
- 將線上課程切成微學習片段
- 製作社群行銷素材
痛點:
- 課程長達數小時
- 難以手動挑選重點
OpenShorts 解法:
- AI 識別知識點
- 自動裁剪成 1-2 分鐘片段
- 方便學員複習
4. 企業行銷團隊
需求:
- 從活動錄影製作宣傳短片
- 快速產出多版本 A/B 測試素材
痛點:
- 剪輯外包成本高
- 內部團隊人力不足
OpenShorts 解法:
- 自動化工作流程
- 產能提升 10 倍
- 省下外包費用
🔥 核心優勢
1. 解決「內容判斷」黑洞
傳統痛點:
- 要看完整部影片才知道哪段好
- 憑感覺判斷,無數據支撐
- 容易錯過真正的爆點
OpenShorts 解法:
- AI 分析逐字稿
- 量化「鉤子強度」
- 數據驅動決策
2. 解決「手動裁剪」黑洞
傳統痛點:
- 16:9 → 9:9 手動調整裁剪框
- 人物移動需要關鍵幀追蹤
- 多人場景難以處理
OpenShorts 解法:
- YOLOv8 自動人臉追蹤
- 動態調整裁剪框
- 自動背景模糊
3. 開源 = 可客製化
SaaS 平台限制:
- 功能固定
- 無法客製化
- 被廠商鎖定
開源優勢:
- 可修改源碼
- 可整合自家工具鏈
- 社群共同改進
4. 本地運算 = 隱私安全
SaaS 平台風險:
- 影片上傳到廠商伺服器
- 隱私疑慮
- 未發布內容可能外洩
本地運算優勢:
- 影片不離開本機
- 完全隱私
- 適合敏感內容
⚠️ 潛在挑戰
1. 技術門檻
需要的技能:
- Docker 基本操作
- API Key 申請與配置
- 終端機指令
解決方案:
- 詳細文檔
- 社群教學
- 一鍵安裝腳本
2. 運算資源
YOLOv8 需求:
- 需要 GPU(推薦)
- 或強大的 CPU
Gemini API:
- 需要網路連線
- API 配額限制
解決方案:
- 雲端運算(AWS/GCP)
- 本地 GPU 伺服器
- 批次處理節省時間
3. AI 判斷準確度
挑戰:
- AI 可能誤判爆點
- 不同領域需要不同標準
- 幽默感難以量化
解決方案:
- 提供多個候選片段
- 人工最終審核
- 調整 Prompt 優化判斷
4. 版權與倫理
風險:
- YouTube 影片版權問題
- 未授權使用他人內容
- 過度自動化可能產生低質內容
解決方案:
- 僅用於自己的影片
- 取得授權後使用
- 人工審核保證品質
💡 戰略洞察
1. 工具成本歸零的時代
ainnoforge 的觀點:
「當工具成本降到趨近於零,比的就不再是誰會剪輯,而是誰的內容策略更能餵飽演算法。」
意義:
- 技術不再是壁壘
- 內容策略成為核心競爭力
- 創意 > 技術
2. 開源顛覆 SaaS
趨勢:
- OpenShorts vs Opus Clip
- Stable Diffusion vs Midjourney
- Llama vs ChatGPT
SaaS 平台的反擊(推測):
- 降價
- 增加獨家功能
- 強化易用性
3. AI 剪輯的未來
當前階段:
- AI 輔助人工決策
- 提供候選片段
未來可能:
- AI 完全自主剪輯
- 根據目標受眾自動優化
- 即時 A/B 測試
🎓 相關技術
Faster-Whisper
官方:https://github.com/guillaumekln/faster-whisper
特色:
- 比 OpenAI Whisper 快 4 倍
- 記憶體使用更少
- 準確度相當
Gemini 2.0 Flash
官方:Google AI Studio
特色:
- 長文本分析能力強
- 性價比高
- 支援 100 萬 token 上下文
YOLOv8
官方:https://github.com/ultralytics/ultralytics
特色:
- 即時物體偵測
- 高準確度
- 易於整合
🌟 金句精選
-
顛覆宣言:
「這份在 Hacker News 意外炸開的開源架構,直接讓那些收高額月費的 AI 剪輯工具瞬間不香了。」
-
效率驚人:
「我實測用它 5 分鐘,就從長影片拆解出 15 個高流量短片。」
-
成本比較:
「這種等級的功能,以前每個月至少要付 50 美金給 SaaS 平台。現在只要你有 Docker 就能在自家設備跑,產能直接翻了 10 倍。」
-
核心價值:
「關鍵在於,它解決了『內容判斷』與『手動裁剪』這兩個最耗時的成本黑洞。」
-
效率對比:
「以前團隊剪一個短片要 30 分鐘,現在我們 5 分鐘就能批次產出一整週的量。」
-
戰略洞察:
「當工具成本降到趨近於零,比的就不再是誰會剪輯,而是誰的內容策略更能餵飽演算法。」
⚠️ 作者背景提醒
ainnoforge 歷史爭議(參考 MEMORY.md):
- 之前文章有數據真實性、硬體規格等問題
- 社群質疑部分數據誇大或不準確
- 觀點具參考價值,但數據需審慎驗證
本文建議:
- OpenShorts 是真實開源專案(可驗證)
- 效率數據(5 分 15 片)可能為理想情況
- 建議實測後再評估
- 社群有人提出相似專案(ddmmbb45)
標籤
#OpenShorts #AI剪輯 #短影音 #FasterWhisper #Gemini2.0Flash #YOLOv8 #開源工具 #自動化剪輯 #YouTube #TikTok #SaaS替代 #Docker #HackerNews #影片自動化 #人臉追蹤
分類
開發工具 | AI/LLM
備註:這是一篇關於 OpenShorts 開源 AI 剪輯工具的介紹文章(5.3K 觀看)。作者 ainnoforge 聲稱用它 5 分鐘產出 15 個短片,效率是傳統手工的 90 倍,可替代每月 $50+ 的 SaaS 平台。
技術棧:Faster-Whisper(語音轉文字)→ Gemini 2.0 Flash(分析鉤子強度)→ YOLOv8(人臉追蹤裁剪)→ 產出 9:16 短片。
社群討論:ddmmbb45 質疑與他之前的開源專案 Subtitle-Driven-AI-Clipper 相似(3 讚),兩者都用 Whisper + AI 分析字幕自動剪輯。
注意事項:ainnoforge 過去有數據爭議記錄,效率數據(5 分 15 片)可能為理想情況,建議實測驗證。