VideoLingo 本地 AI 影片翻譯字幕與中文配音工具部署指南

簡介

如果你平常會看很多外語影片，或者你自己有做內容想要跨語系發布，VideoLingo 其實是一個很值得試的開源工具。

它可以把整個流程串起來：先把語音轉字幕、再翻譯、最後做配音，然後直接輸出成可以看的版本。
對我來說最有感的是，它不是只有「翻譯字面」，而是有在處理字幕斷句和整體可讀性，所以看起來不會那麼像生硬機翻。

VideoLingo 操作介面展示

我這次實測有做出兩支版本，一支是原配加字幕，一支是中配，直接放上來給你比對：

原配版：保留原音 + 中文字幕

中配版：中文字幕 + 中文配音

如果你是第一次接觸這類工具，我建議先看原配和中配差異，會比較容易判斷你自己的使用場景是只需要字幕，還是需要加上中配（自己是喜歡原始音訊）。

VideoLingo 比較像是一條完整的影片本地化流水線，不只是單點工具。常用功能大致有：

如果你不想自己把「轉錄、翻譯、配音、字幕對齊」這些步驟拆開做，這種整合型工具會省很多時間。

這套工具建議用 uv 安裝，流程最乾淨，也比較不容易踩到 Python 環境衝突。

安裝 FFmpeg
- macOS：brew install ffmpeg
- Windows：choco install ffmpeg
- Ubuntu / Debian：sudo apt install ffmpeg

bash

git clone https://github.com/Huanshere/VideoLingo.git
cd VideoLingo

bash

python setup_env.py

這一步會幫你處理 uv、Python 3.10 跟需要的套件。

bash

# macOS / Linux
.venv/bin/streamlit run st.py

# Windows
.venv\Scripts\streamlit run st.py

啟動後打開瀏覽器進入 Streamlit 頁面，就可以直接貼影片來源開始跑流程。

我這次用下來的感覺是：簡單、高效、很快就能跑出成果。

LLM 我用的是 deepseek v4 flash，速度快、成本低，整體效率很好。
TTS 我先用 edge-tts（免費），優點是零成本、上手快，但聲音確實會偏機械、比較生硬。

如果你希望聲音自然一點，我會比較推薦：

如果你是下面這幾種情境，VideoLingo 會很實用：