AI & Tools #AI Tools #Voice Cloning #Audio Processing #macOS

OmniVoice Studio 本地端 AI 影音配音工具實測與 macOS 安裝避坑指南

最近測試了開源版 ElevenLabs + HeyGen:OmniVoice Studio。它支援 646 種語言、本地自動影片配音,且連 Mac mini 都跑得動!本文分享實測心得、macOS 隔離區排除教學,以及繁中/簡中輸入產生的語音對比。

簡介

如果你有用過 ElevenLabs 或 HeyGen 這種 AI 語音跟影片配音工具,應該會對它們的生成品質感到驚艷,但同時也會被它們昂貴的訂閱費或雲端隱私問題給勸退。而 OmniVoice Studio 簡單來說,就是開源、完全本地跑的 ElevenLabs + HeyGen 替代方案

它在本地端運行的優點非常誇張:

  1. 完全本地化:不需要任何 API Key、不需要註冊帳號,所有運算都在你的機器上完成,隱私安全無虞。
  2. 資源需求低:即便是在一般規格的 Mac mini 上也能順暢運行,如果顯示卡或顯示記憶體不足(VRAM <= 8GB),它還會自動且聰明地把 TTS 任務卸載(offload)到 CPU 上跑。
  3. 支援 646 種語言:支援龐大的語言數量,還包含多種方言、口音與情緒調整。
  4. 一條龍影片自動配音:上傳影片或貼 YouTube 網址,自動幫你轉譯字幕、翻譯、生成新語音、人聲隔離並重新混音,最後直接導出成新的 MP4。
  5. 完整的 GUI 介面:它不像許多開源專案只有命令列或粗糙的 Gradio 介面,它有著精緻的跨平台 Tauri 桌面 GUI 應用程式。

介面與設定展示 (UI & Setup)

下圖是 OmniVoice Studio 啟動後的初始設定過程。首次啟動時,它會自動偵測你的硬體環境並進行對應的模型與環境配置:

OmniVoice Studio Setup

OmniVoice Studio 開啟後自動設定介面


macOS 安裝與 Gatekeeper 隔離排除 (打不開必看)

由於 OmniVoice Studio 目前還在積極測試階段(官方預計在 v0.4 版本才會實作開發者 ID 簽章與公證流程),直接安裝預編譯的 .app 時,macOS 的 Gatekeeper 機制會直接攔截並提示「應用程式已損壞,無法開啟」。

請依照以下步驟順利安裝與排除:

1. 正常安裝步驟

OmniVoice Studio 官方網站 Launchpad,官方整合了「語音複製 (Voice Clone)」、「語音設計 (Voice Design)」與「影片配音 (Video Dubbing)」三大核心功能,並提供了跨平台的安裝檔。

該專案底層技術棧相當完整,結合了 Python、Tauri、CUDA、Docker、MLX 與 Whisper 等工具。在 Launchpad 下載頁面中,你可以依據作業系統選擇對應的下載包:

  • macOS:點擊下載 macOS DMG
  • Windows:點擊下載 Windows MSI
  • Linux:點擊下載 Linux AppImageDebian .deb 檔案。

Mac 使用者下載 .dmg 檔案後,雙擊掛載並將其中的 OmniVoice Studio.app 拖移至 /Applications (應用程式) 資料夾。

2. 解決「應用程式已損壞,無法開啟」

將應用程式拖入根目錄後,請開啟終端機(Terminal)並執行以下指令,清除 macOS 的隔離區擴充屬性:

bash
xattr -cr "/Applications/OmniVoice Studio.app"

執行完畢後即可順利開啟程式。這項修復每次安裝只需進行一次。該應用程式本身是完全開源的,如果您想確保萬無一失,可在清除該屬性之前,先將下載檔案的 SHA-256 校驗值與發布頁面上的 Checksum 進行比對。


實測與爆笑 Bug:繁體中文秒變粵語?

雖然 OmniVoice 支援高達 646 種語言,但目前在中文的支援上,有一個非常令人哭笑不得的問題:

當你輸入「繁體中文」進行文字轉語音(TTS)時,AI 常常會直接切換到「粵語(廣東話)模式」來發音!

這並不是單純的系統語系設定錯誤,而是目前許多開源 Multilingual TTS 模型的通病。因為在這些模型的訓練語料庫中,「繁體中文 = 香港粵語語料」 的關聯性太強、比重過高,導致模型一看到繁體字,就直覺地用粵語發音。

解決方案:改用「簡體中文」輸入

在官方修正這個問題之前,最有效的解決方式是:將你的 Prompt 內容轉成簡體中文輸入。

轉換為簡體後,模型就能正確地使用標準國語/普通話進行發音,整體發音與腔調效果會有極大的改善。

下面是我們實測同樣的 Prompt,分別用「繁體中文」與「簡體中文」輸入的語音生成對比:

1. 繁體中文輸入實測(直接被切成粵語發音)

繁體中文測試:AI 自動切換成粵語模式發音

2. 簡體中文輸入實測(正常國語發音)

簡體中文測試:成功以標準國語發音,腔調與效果明顯改善


OmniVoice Studio v.s. Voicebox 終極對比

如果你看過我們先前寫的 Voicebox 安裝指南與核心教學,你可能會好奇這兩款同樣主打「本地端運行」的 AI 語音工作室,到底該選哪一個?

我實測下來的結論是:兩者的取捨在於「生成速度」與「聲音品質/穩定度」的對決。

  • 生成速度OmniVoice 速度飛快,完全海放 Voicebox。在 OmniVoice 中點擊生成,幾乎是瞬間就吐出語音;相較之下,Voicebox 的生成速度慢上不少。
  • 聲音穩定度與克隆品質Voicebox 完勝。OmniVoice 雖然速度極快,但在 clone 語音的相似度、聲音的情緒起伏穩定度上,目前仍然不如 Voicebox。Voicebox 產出的聲音聽起來更飽滿、雜音更少,且克隆出來的聲線相似度與自然度高出許多。
  • 功能豐富度OmniVoice 獲勝。OmniVoice 本身整合了 Demucs 人聲分離、Pyannote 說話人識別與自動影片配音,可以說是專為「影片本地化/配音」設計的一站式工具;而 Voicebox 目前還是偏向純粹的文字轉語音、語音 Profile 管理和多軌故事編輯器。

對比表格整理

比較項目OmniVoice StudioVoicebox (Local Studio)
語音生成速度飛快(海放級速度)較慢
語音克隆品質 (Cloning)普通,容易有機械感或失真優異,相似度極高且自然
聲音穩定度中等,語調有時會不穩定極佳,發音平滑穩定
支援語言數量646 種語言約 32 種語言(視模型而定)
影片自動配音支援一鍵影片轉譯配音 (完整 Workflow)不直接支援影片工作流
GPU 自動偵測卸載支援(VRAM < 8GB 自動轉 CPU)需手動調整或使用特定引擎
繁體中文支援度差(繁中常被誤判為粵語)表現尚可(依使用的 TTS 引擎而定)

實測感想與優缺點整理

雖然 OmniVoice Studio 在繁體中文的發音上存在誤判粵語的 Bug,且目前介面尚未中文化,但能在本地端(甚至是一般的 Mac mini 上)把「影片轉錄 -> 翻譯 -> 語音合成 -> 重新混音」這整套極其複雜的 Workflow做成如此精緻的 GUI,並提供飛快的生成速度,本身就已經是一件非常猛的事。

優點

  • 極致的生成速度:完全海放其他同類型的本地端工具。
  • 全能的影片配音 Workflow:內建了 WhisperX、Demucs 與 Pyannote,不需要自己手動串接一堆 Python 庫。
  • 輕量與高相容性:支援 Mac M 晶片 (MPS),且能自動因應記憶體限制卸載任務。
  • 豐富的發音設定:提供年齡、性別、音調、情緒等多種模式,可調性非常高。

缺點

  • 繁中發音 Bug:輸入繁體中文極易生出廣東話,目前必須依賴簡體字繞道解決。
  • 克隆品質與穩定度仍有進步空間:跟 Voicebox 相比,語音品質與克隆的相似度稍微遜色。
  • 介面尚未中文化:目前 UI 以英文為主。

如果你追求的是極致的語音克隆真實度,且只需要單純的文字轉語音,那麼 Voicebox 依然是首選;但如果你想快速為影片進行本地化配音、處理多角色對話,或者想體驗多種發音模式與好玩的語音設計,那麼 OmniVoice Studio 絕對值得你排除 Gatekeeper 隔離去下載來玩玩看。


相關連結