OmniVoice Studio 本地端 AI 影音配音工具實測與 macOS 安裝避坑指南

簡介

如果你有用過 ElevenLabs 或 HeyGen 這種 AI 語音跟影片配音工具，應該會對它們的生成品質感到驚艷，但同時也會被它們昂貴的訂閱費或雲端隱私問題給勸退。而 OmniVoice Studio 簡單來說，就是開源、完全本地跑的 ElevenLabs + HeyGen 替代方案。

它在本地端運行的優點非常誇張：

完全本地化：不需要任何 API Key、不需要註冊帳號，所有運算都在你的機器上完成，隱私安全無虞。
資源需求低：即便是在一般規格的 Mac mini 上也能順暢運行，如果顯示卡或顯示記憶體不足（VRAM <= 8GB），它還會自動且聰明地把 TTS 任務卸載（offload）到 CPU 上跑。
支援 646 種語言：支援龐大的語言數量，還包含多種方言、口音與情緒調整。
一條龍影片自動配音：上傳影片或貼 YouTube 網址，自動幫你轉譯字幕、翻譯、生成新語音、人聲隔離並重新混音，最後直接導出成新的 MP4。
完整的 GUI 介面：它不像許多開源專案只有命令列或粗糙的 Gradio 介面，它有著精緻的跨平台 Tauri 桌面 GUI 應用程式。

介面與設定展示 (UI & Setup)

下圖是 OmniVoice Studio 啟動後的初始設定過程。首次啟動時，它會自動偵測你的硬體環境並進行對應的模型與環境配置：

OmniVoice Studio 開啟後自動設定介面

macOS 安裝與 Gatekeeper 隔離排除 (打不開必看)

由於 OmniVoice Studio 目前還在積極測試階段（官方預計在 v0.4 版本才會實作開發者 ID 簽章與公證流程），直接安裝預編譯的 .app 時，macOS 的 Gatekeeper 機制會直接攔截並提示「應用程式已損壞，無法開啟」。

請依照以下步驟順利安裝與排除：

1. 正常安裝步驟

在 OmniVoice Studio 官方網站 Launchpad，官方整合了「語音複製 (Voice Clone)」、「語音設計 (Voice Design)」與「影片配音 (Video Dubbing)」三大核心功能，並提供了跨平台的安裝檔。

該專案底層技術棧相當完整，結合了 Python、Tauri、CUDA、Docker、MLX 與 Whisper 等工具。在 Launchpad 下載頁面中，你可以依據作業系統選擇對應的下載包：

macOS：點擊下載 macOS DMG。
Windows：點擊下載 Windows MSI。
Linux：點擊下載 Linux AppImage 或 Debian .deb 檔案。

Mac 使用者下載 .dmg 檔案後，雙擊掛載並將其中的 OmniVoice Studio.app 拖移至 /Applications (應用程式) 資料夾。

2. 解決「應用程式已損壞，無法開啟」

將應用程式拖入根目錄後，請開啟終端機（Terminal）並執行以下指令，清除 macOS 的隔離區擴充屬性：

bash

xattr -cr "/Applications/OmniVoice Studio.app"

執行完畢後即可順利開啟程式。這項修復每次安裝只需進行一次。該應用程式本身是完全開源的，如果您想確保萬無一失，可在清除該屬性之前，先將下載檔案的 SHA-256 校驗值與發布頁面上的 Checksum 進行比對。

實測與爆笑 Bug：繁體中文秒變粵語？

雖然 OmniVoice 支援高達 646 種語言，但目前在中文的支援上，有一個非常令人哭笑不得的問題：

當你輸入「繁體中文」進行文字轉語音（TTS）時，AI 常常會直接切換到「粵語（廣東話）模式」來發音！

這並不是單純的系統語系設定錯誤，而是目前許多開源 Multilingual TTS 模型的通病。因為在這些模型的訓練語料庫中，「繁體中文 = 香港粵語語料」 的關聯性太強、比重過高，導致模型一看到繁體字，就直覺地用粵語發音。

解決方案：改用「簡體中文」輸入

在官方修正這個問題之前，最有效的解決方式是：將你的 Prompt 內容轉成簡體中文輸入。

轉換為簡體後，模型就能正確地使用標準國語/普通話進行發音，整體發音與腔調效果會有極大的改善。

下面是我們實測同樣的 Prompt，分別用「繁體中文」與「簡體中文」輸入的語音生成對比：

1. 繁體中文輸入實測（直接被切成粵語發音）

繁體中文測試：AI 自動切換成粵語模式發音

2. 簡體中文輸入實測（正常國語發音）

簡體中文測試：成功以標準國語發音，腔調與效果明顯改善

OmniVoice Studio v.s. Voicebox 終極對比

如果你看過我們先前寫的 Voicebox 安裝指南與核心教學，你可能會好奇這兩款同樣主打「本地端運行」的 AI 語音工作室，到底該選哪一個？

我實測下來的結論是：兩者的取捨在於「生成速度」與「聲音品質/穩定度」的對決。

生成速度：OmniVoice 速度飛快，完全海放 Voicebox。在 OmniVoice 中點擊生成，幾乎是瞬間就吐出語音；相較之下，Voicebox 的生成速度慢上不少。
聲音穩定度與克隆品質：Voicebox 完勝。OmniVoice 雖然速度極快，但在 clone 語音的相似度、聲音的情緒起伏穩定度上，目前仍然不如 Voicebox。Voicebox 產出的聲音聽起來更飽滿、雜音更少，且克隆出來的聲線相似度與自然度高出許多。
功能豐富度：OmniVoice 獲勝。OmniVoice 本身整合了 Demucs 人聲分離、Pyannote 說話人識別與自動影片配音，可以說是專為「影片本地化/配音」設計的一站式工具；而 Voicebox 目前還是偏向純粹的文字轉語音、語音 Profile 管理和多軌故事編輯器。

對比表格整理

比較項目	OmniVoice Studio	Voicebox (Local Studio)
語音生成速度	飛快（海放級速度）	較慢
語音克隆品質 (Cloning)	普通，容易有機械感或失真	優異，相似度極高且自然
聲音穩定度	中等，語調有時會不穩定	極佳，發音平滑穩定
支援語言數量	646 種語言	約 32 種語言（視模型而定）
影片自動配音	支援一鍵影片轉譯配音 (完整 Workflow)	不直接支援影片工作流
GPU 自動偵測卸載	支援（VRAM < 8GB 自動轉 CPU）	需手動調整或使用特定引擎
繁體中文支援度	差（繁中常被誤判為粵語）	表現尚可（依使用的 TTS 引擎而定）

實測感想與優缺點整理

雖然 OmniVoice Studio 在繁體中文的發音上存在誤判粵語的 Bug，且目前介面尚未中文化，但能在本地端（甚至是一般的 Mac mini 上）把「影片轉錄 -> 翻譯 -> 語音合成 -> 重新混音」這整套極其複雜的 Workflow做成如此精緻的 GUI，並提供飛快的生成速度，本身就已經是一件非常猛的事。

優點

極致的生成速度：完全海放其他同類型的本地端工具。
全能的影片配音 Workflow：內建了 WhisperX、Demucs 與 Pyannote，不需要自己手動串接一堆 Python 庫。
輕量與高相容性：支援 Mac M 晶片 (MPS)，且能自動因應記憶體限制卸載任務。
豐富的發音設定：提供年齡、性別、音調、情緒等多種模式，可調性非常高。

缺點

繁中發音 Bug：輸入繁體中文極易生出廣東話，目前必須依賴簡體字繞道解決。
克隆品質與穩定度仍有進步空間：跟 Voicebox 相比，語音品質與克隆的相似度稍微遜色。
介面尚未中文化：目前 UI 以英文為主。

如果你追求的是極致的語音克隆真實度，且只需要單純的文字轉語音，那麼 Voicebox 依然是首選；但如果你想快速為影片進行本地化配音、處理多角色對話，或者想體驗多種發音模式與好玩的語音設計，那麼 OmniVoice Studio 絕對值得你排除 Gatekeeper 隔離去下載來玩玩看。