AI & Tools #AI Tools #Audio Processing #Automation #Voice Cloning

Voicebox 本地端 AI 語音工作室安裝指南與核心配置教學

這是一篇針對開發者設計的 Voicebox 指南。從 macOS/Windows 安裝到 Voice Cloning 實作,並教你如何透過 MCP 讓 AI Agent 開口說話。

簡介

如果你正在尋找一個功能強大且完全隱私的語音工具,Voicebox 是目前開源社群中最亮眼的選擇。它不僅是一個文字轉語音(TTS)工具,更是一個完整的本地端語音工作室。透過它,你可以克隆任何聲音、實現全域語音聽寫,甚至讓你的 AI Agent 擁有專屬的聲音——而這一切,都在你的電腦上本地完成,無需任何雲端訂閱或隱私妥協。


介面展示 (UI Demo)

Voicebox UI 與操作界面展示


安裝教學:我該下載哪一個檔案?

前往 Voicebox GitHub Releases 頁面時,你會看到許多不同後綴的檔案。請根據你的電腦規格對號入座:

Voicebox 下載位置(點擊上方連結)

1. macOS 使用者

硬體規格建議下載檔案說明
Apple Silicon (M1/M2/M3)Voicebox_0.5.0_aarch64.dmg效能最強,支援 MLX 硬體加速
Intel 處理器Voicebox_0.5.0_x64.dmg適用於較舊款的 MacBook 或 iMac
  • 安裝提示:下載後打開 .dmg,將 Voicebox 拖入 Applications 資料夾。首次啟動若提示「無法驗證開發者」,請至「系統設定」>「隱私權與安全性」點擊「仍要開啟」。

2. Windows 使用者

硬體規格建議下載檔案說明
一般使用者 (推薦)Voicebox_0.5.0_x64-setup.exe標準安裝程式,會引導你完成安裝
企業或自動化部署Voicebox_0.5.0_x64_en-US.msi微軟標準安裝格式
  • 安裝提示:執行 .exe 檔,若出現 Windows Defender 橘色警告,點擊「其他資訊」並選擇「仍要執行」。程式啟動後會自動偵測你的 GPU (NVIDIA/AMD) 並下載對應的運算模組。

小知識:檔名後綴帶有 .sig.zip.sig 的是數位簽章檔案,用於驗證程式完整性,一般使用者不需要下載


核心功能教學

第一步:建立語音 Profile (Voice Cloning)

  1. 進入 Profiles 分頁,點擊 "Create New Profile"
  2. 上傳音檔:準備一段 10-30 秒、清晰且無背景雜音的參考音訊。
  3. 選擇引擎
    • 需要高品質克隆:選擇 Qwen3-TTS
    • 需要極速生成:選擇 Kokoro
  4. 點擊 "Create",你現在就可以用這個聲音生成文字了。

第二步:全域聽寫 (Global Dictation)

這是 Voicebox 最實用的功能之一,讓你能在任何 App 中用說的輸入文字:

  1. Settings > Dictation 設定快捷鍵(預設通常是 Caps Lock 或自定義組合鍵)。
  2. 操作:在任何文字輸入框(如 Slack 或 VS Code),長按快捷鍵並開始說話。
  3. 完成:放開按鍵,Voicebox 會自動透過 Whisper 轉譯並將文字貼入。

第三步:讓你的 AI Agent 說話 (MCP 設定)

如果你使用 Claude Code 或 Cursor,可以透過 MCP 協議連接 Voicebox:

Claude Code 設定指令:

bash
claude mcp add voicebox \
  --transport http \
  --url http://127.0.0.1:17493/mcp \
  --header "X-Voicebox-Client-Id: claude-code"

設定完成後,你的 Agent 就能調用 voicebox.speak 工具,直接用你指定的克隆聲音與你對話。

第四步:使用故事編輯器 (Stories)

  1. 開啟 Stories 標籤,建立新專案。
  2. 這裡提供多軌時間軸,你可以拖放不同的音訊片段。
  3. 支援多角色對話,適合製作 Podcast 片段或語音導覽。

常見問題與解決 (Troubleshooting)

  • 生成速度過慢:請確認 Settings 中是否正確啟用了 GPU 加速。
  • 模型下載失敗:建議確認網路環境,或手動設定 VOICEBOX_MODELS_DIR 環境變數。
  • 全域聽寫無法貼上:macOS 使用者請檢查「輔助使用」權限是否已勾選 Voicebox。

相關連結: