OpenShorts：開源 AI 剪輯工具，5 分鐘產出 15 個短片

文章資訊

作者：ainnoforge
來源：https://www.threads.com/@ainnoforge/post/DVpyHV3AYxo
發布時間：2026-03-09
觀看數：5,300（5.3K）
社群反應：63 讚、8 回覆、1 引用、111 分享
GitHub：OpenShorts（文章未提供連結）

原始貼文

ainnoforge（1 天前）：

「這份在 Hacker News 意外炸開的開源架構，直接讓那些收高額月費的 AI 剪輯工具瞬間不香了。我實測用它 5 分鐘，就從長影片拆解出 15 個高流量短片。這套名為 OpenShorts 的工具把整個短影音生產鏈都自動化了：它先用 Faster-Whisper 跑出極速逐字稿，再交給 Gemini 2.0 Flash 深度分析，從長影片中精準抓出 3 到 15 個具備「瘋傳潛力」的黃金片段。最實用的是它的 V2 裁剪引擎。利用 YOLOv8 進行人臉追蹤，自動把 16:9 轉成 9:16 垂直格式，還能自動處理多人場景的背景模糊，確保主角永遠在畫面中心。這種等級的功能，以前每個月至少要付 50 美金給 SaaS 平台。現在只要你有 Docker 就能在自家設備跑，產能直接翻了 10 倍。」

💬 作者補充說明

ainnoforge（1 天前，1 回覆、2 分享）：

「關鍵在於，它解決了『內容判斷』與『手動裁剪』這兩個最耗時的成本黑洞。」

實戰流程

步驟 1：準備 Gemini API Key

「準備好 Gemini 的 API Key，這是目前分析長文本性價比最高的路徑。」

步驟 2：丟入 YouTube 連結

「丟入 YouTube 連結，讓 AI 根據逐字稿的『鉤子』強度自動標記時間軸。」

步驟 3：自動裁剪與發布

「啟動自動人臉追蹤裁剪，產出後直接同步到 AWS 備份或一鍵發布到 TikTok。」

效率提升

Before：

「以前團隊剪一個短片要 30 分鐘。」

After：

「現在我們 5 分鐘就能批次產出一整週的量。」

效率提升：6 倍速度（30 分 → 5 分）

核心觀點

「當工具成本降到趨近於零，比的就不再是誰會剪輯，而是誰的內容策略更能餵飽演算法。」

💬 社群討論

1. 相似專案質疑

ddmmbb45（13 小時前，3 讚、1 回覆、3 分享）：

「聽完為啥跟我以前寫的專案很像？」

GitHub 連結：https://github.com/ddmmbb-2/Subtitle-Driven-AI-Clipper

專案說明：

「An AI-powered tool that automates video clipping based on subtitle content analysis. It uses Whisper for transcription and leverages configurable AI models (like GPT or Ollama) to select segments...」

技術重疊：

都用 Whisper 轉錄
都用 AI 模型分析字幕
都自動選擇片段

差異（推測）：

ddmmbb45 的專案可能更早
OpenShorts 可能有更多功能（YOLOv8 人臉追蹤）
兩者可能有借鑑關係

2. 感謝回覆

joywithkc（12 小時前）：

「感謝」

🔧 技術架構分析

核心技術棧

1. Faster-Whisper

功能：語音轉文字

極速逐字稿生成
比原版 Whisper 更快
支援多語言

用途：

提取影片音訊
生成時間軸逐字稿
為 AI 分析提供文本基礎

2. Gemini 2.0 Flash

功能：內容分析與判斷

「深度分析，從長影片中精準抓出 3 到 15 個具備『瘋傳潛力』的黃金片段。」

為什麼選 Gemini？

「這是目前分析長文本性價比最高的路徑。」

分析維度（推測）：

鉤子強度（hook strength）
情緒波動
金句密度
話題熱度
病毒式傳播潛力

3. YOLOv8

功能：人臉追蹤與裁剪

「利用 YOLOv8 進行人臉追蹤，自動把 16:9 轉成 9:16 垂直格式。」

V2 裁剪引擎特色：

人臉追蹤
16:9 → 9:16 自動轉換
多人場景背景模糊
確保主角永遠在畫面中心

技術細節：

YOLO（You Only Look Once）物體偵測
即時追蹤人臉位置
動態調整裁剪框
確保主角不被切掉

4. Docker

部署方式：

「現在只要你有 Docker 就能在自家設備跑。」

優勢：

一鍵部署
環境一致性
跨平台支援
不需要複雜配置

🎯 完整工作流程

輸入

影片來源：

YouTube 連結
本地影片檔案（推測）

處理流程

長影片
  ↓
[1] Faster-Whisper 語音轉文字
  ↓
逐字稿 + 時間軸
  ↓
[2] Gemini 2.0 Flash 分析
  ↓
識別 3-15 個黃金片段
  ↓
[3] YOLOv8 人臉追蹤裁剪
  ↓
16:9 → 9:16 垂直格式
  ↓
[4] 後製處理
  - 多人場景背景模糊
  - 確保主角在中心
  ↓
產出 3-15 個短影片
  ↓
[5] 發布
  - 同步 AWS 備份
  - 一鍵發布 TikTok

輸出

成果：

3-15 個短影片
9:16 垂直格式
已裁剪、已優化
可直接發布

💰 成本分析

SaaS 平台成本

傳統方案：

「這種等級的功能，以前每個月至少要付 50 美金給 SaaS 平台。」

年費：$600

主流 AI 剪輯 SaaS（推測）：

Opus Clip：$99-399/月
Descript：$24-50/月
Vizard：$30-120/月

OpenShorts 成本

硬體成本：

自有伺服器/電腦（一次性）
或雲端運算費用

API 成本：

Gemini API（按使用量）
極低（文本分析成本低）

人力成本：

部署時間（Docker 一鍵）
學習曲線（開源文檔）

總結：

幾乎零月費
僅需 API 使用費（遠低於 $50/月）
適合高產量創作者

📊 效率對比

項目	傳統手工	SaaS 平台	OpenShorts
剪輯一個短片	30 分鐘	10-15 分鐘	5 分鐘
批次產出 15 個	7.5 小時	2.5 小時	5 分鐘
月費	$0	$50+	$0-5
產能	1x	3x	10x
客製化	高	低	高
學習曲線	中	低	中

結論：

OpenShorts 效率 = 傳統手工的 90 倍
OpenShorts 成本 ≈ $0

🚀 適用場景

1. YouTube 創作者

需求：

將長影片（10-60 分鐘）切成短片
在 TikTok/YouTube Shorts 曝光

痛點：

手動剪輯耗時
不確定哪段有爆點

OpenShorts 解法：

AI 自動識別黃金片段
5 分鐘產出 15 個短片
直接發布 TikTok

2. Podcast 主持人

需求：

從 1-2 小時 Podcast 提取精華
製作社群媒體推廣內容

痛點：

要聽完全部才知道哪段有梗
剪輯費時費力

OpenShorts 解法：

AI 分析逐字稿找鉤子
自動標記時間軸
批次產出短片

3. 教育/培訓機構

需求：

將線上課程切成微學習片段
製作社群行銷素材

痛點：

課程長達數小時
難以手動挑選重點

OpenShorts 解法：

AI 識別知識點
自動裁剪成 1-2 分鐘片段
方便學員複習

4. 企業行銷團隊

需求：

從活動錄影製作宣傳短片
快速產出多版本 A/B 測試素材

痛點：

剪輯外包成本高
內部團隊人力不足

OpenShorts 解法：

自動化工作流程
產能提升 10 倍
省下外包費用

🔥 核心優勢

1. 解決「內容判斷」黑洞

傳統痛點：

要看完整部影片才知道哪段好
憑感覺判斷，無數據支撐
容易錯過真正的爆點

OpenShorts 解法：

AI 分析逐字稿
量化「鉤子強度」
數據驅動決策

2. 解決「手動裁剪」黑洞

傳統痛點：

16:9 → 9:9 手動調整裁剪框
人物移動需要關鍵幀追蹤
多人場景難以處理

OpenShorts 解法：

YOLOv8 自動人臉追蹤
動態調整裁剪框
自動背景模糊

3. 開源 = 可客製化

SaaS 平台限制：

功能固定
無法客製化
被廠商鎖定

開源優勢：

可修改源碼
可整合自家工具鏈
社群共同改進

4. 本地運算 = 隱私安全

SaaS 平台風險：

影片上傳到廠商伺服器
隱私疑慮
未發布內容可能外洩

本地運算優勢：

影片不離開本機
完全隱私
適合敏感內容

⚠️ 潛在挑戰

1. 技術門檻

需要的技能：

Docker 基本操作
API Key 申請與配置
終端機指令

解決方案：

詳細文檔
社群教學
一鍵安裝腳本

2. 運算資源

YOLOv8 需求：

需要 GPU（推薦）
或強大的 CPU

Gemini API：

需要網路連線
API 配額限制

解決方案：

雲端運算（AWS/GCP）
本地 GPU 伺服器
批次處理節省時間

3. AI 判斷準確度

挑戰：

AI 可能誤判爆點
不同領域需要不同標準
幽默感難以量化

解決方案：

提供多個候選片段
人工最終審核
調整 Prompt 優化判斷

4. 版權與倫理

風險：

YouTube 影片版權問題
未授權使用他人內容
過度自動化可能產生低質內容

解決方案：

僅用於自己的影片
取得授權後使用
人工審核保證品質

💡 戰略洞察

1. 工具成本歸零的時代

ainnoforge 的觀點：

「當工具成本降到趨近於零，比的就不再是誰會剪輯，而是誰的內容策略更能餵飽演算法。」

意義：

技術不再是壁壘
內容策略成為核心競爭力
創意 > 技術

2. 開源顛覆 SaaS

趨勢：

OpenShorts vs Opus Clip
Stable Diffusion vs Midjourney
Llama vs ChatGPT

SaaS 平台的反擊（推測）：

降價
增加獨家功能
強化易用性

3. AI 剪輯的未來

當前階段：

AI 輔助人工決策
提供候選片段

未來可能：

AI 完全自主剪輯
根據目標受眾自動優化
即時 A/B 測試

🎓 相關技術

Faster-Whisper

官方：https://github.com/guillaumekln/faster-whisper

特色：

比 OpenAI Whisper 快 4 倍
記憶體使用更少
準確度相當

Gemini 2.0 Flash

官方：Google AI Studio

特色：

長文本分析能力強
性價比高
支援 100 萬 token 上下文

YOLOv8

官方：https://github.com/ultralytics/ultralytics

特色：

即時物體偵測
高準確度
易於整合

🌟 金句精選

顛覆宣言：

「這份在 Hacker News 意外炸開的開源架構，直接讓那些收高額月費的 AI 剪輯工具瞬間不香了。」
效率驚人：

「我實測用它 5 分鐘，就從長影片拆解出 15 個高流量短片。」
成本比較：

「這種等級的功能，以前每個月至少要付 50 美金給 SaaS 平台。現在只要你有 Docker 就能在自家設備跑，產能直接翻了 10 倍。」
核心價值：

「關鍵在於，它解決了『內容判斷』與『手動裁剪』這兩個最耗時的成本黑洞。」
效率對比：

「以前團隊剪一個短片要 30 分鐘，現在我們 5 分鐘就能批次產出一整週的量。」
戰略洞察：

「當工具成本降到趨近於零，比的就不再是誰會剪輯，而是誰的內容策略更能餵飽演算法。」

⚠️ 作者背景提醒

ainnoforge 歷史爭議（參考 MEMORY.md）：

之前文章有數據真實性、硬體規格等問題
社群質疑部分數據誇大或不準確
觀點具參考價值，但數據需審慎驗證

本文建議：

OpenShorts 是真實開源專案（可驗證）
效率數據（5 分 15 片）可能為理想情況
建議實測後再評估
社群有人提出相似專案（ddmmbb45）

分類

開發工具 | AI/LLM

備註：這是一篇關於 OpenShorts 開源 AI 剪輯工具的介紹文章（5.3K 觀看）。作者 ainnoforge 聲稱用它 5 分鐘產出 15 個短片，效率是傳統手工的 90 倍，可替代每月 $50+ 的 SaaS 平台。

技術棧：Faster-Whisper（語音轉文字）→ Gemini 2.0 Flash（分析鉤子強度）→ YOLOv8（人臉追蹤裁剪）→ 產出 9:16 短片。

社群討論：ddmmbb45 質疑與他之前的開源專案 Subtitle-Driven-AI-Clipper 相似（3 讚），兩者都用 Whisper + AI 分析字幕自動剪輯。

注意事項：ainnoforge 過去有數據爭議記錄，效率數據（5 分 15 片）可能為理想情況，建議實測驗證。

OpenShorts：開源 AI 剪輯工具，5 分鐘產出 15 個短片

文章資訊

原始貼文

💬 作者補充說明

實戰流程

效率提升

核心觀點

💬 社群討論

1. 相似專案質疑

2. 感謝回覆

🔧 技術架構分析

核心技術棧

1. Faster-Whisper

2. Gemini 2.0 Flash

3. YOLOv8

4. Docker

🎯 完整工作流程

輸入

處理流程

輸出

💰 成本分析

SaaS 平台成本

OpenShorts 成本

📊 效率對比

🚀 適用場景

1. YouTube 創作者

2. Podcast 主持人

3. 教育/培訓機構

4. 企業行銷團隊

🔥 核心優勢

1. 解決「內容判斷」黑洞

2. 解決「手動裁剪」黑洞

3. 開源 = 可客製化

4. 本地運算 = 隱私安全

⚠️ 潛在挑戰

1. 技術門檻

2. 運算資源

3. AI 判斷準確度

4. 版權與倫理

💡 戰略洞察

1. 工具成本歸零的時代

2. 開源顛覆 SaaS

3. AI 剪輯的未來

🎓 相關技術

Faster-Whisper

Gemini 2.0 Flash

YOLOv8

🌟 金句精選

⚠️ 作者背景提醒

標籤

分類