Voiceboxは、あなたのMacを小さなローカル音声合成およびクローンスタジオに変えるオープンソースのアプリです。それは、Qwen3-TTSモデルを使用して、クラウドサービス、トークン、有料サブスクリプションに依存せずに、デバイス上で直接リアルな音声を生成します。
macOS用に設計された音声クローンアプリ
Voicebox を使用すると、数秒から30秒までの参照オーディオから音声プロファイルを作成できます。Qwen3-TTSモデルは、音調、音色、アクセントを分析し、それらをかなり忠実に再現します。音声ファイルをアップロードするか、Macのマイクから録音し、発言内容を指定するか、自動トランスクリプションを使用するだけで、プロセスを繰り返すことなく新しい音声を生成するためのプロファイルが準備できます。
カスタムボイスプロファイルで音声を生成する
プロファイルを保存したら、テキストを入力するだけで、Voicebox がその声で音声を生成します。これにより、例えば、あなたのトーンを維持しながらフレーズを他の言語に翻訳することができるので、ホームダブを作成したり、ビデオゲームプロジェクトのために声を生成したりすることができます。他のユーザーと音声プロファイルを共有し、彼らが自分のデバイスで音声を生成できるようにすることもできます。
自動転写とシステム音声のキャプチャ
アプリは音声をテキストに変換し、生成された音声と同期させるWhisperを統合しています。これにより、タイムライン上で直接対話を編集しやすくなり、声のプロファイルの一貫性を失うことなく、ポーズを調整したり発音を修正したりできます。さらに、システムオーディオキャプチャが含まれており、Mac上の音(ゲームや通話など)を録音して、新しいクローンやオーディオシーンの参考にすることができます。
ローカル音声サーバーと他のプロジェクト用API
Voicebox は単なるグラフィカルインターフェース以上のものであり、統合されたREST APIのおかげでローカル音声サーバーとしても機能します。ワンクリックでそれを有効にし、ゲーム、アプリ、またはAIエージェントからテキストを送信し、標準フォーマットで生成された音声を取得できます。これは、外部サービスに依存せずにナレーション、対話、または通知の自動化を促進します。このアプリはTauri、Rust、Pythonで開発されており、多くのElectronベースの代替品よりも軽量です。それでも、パフォーマンスはあなたのMacの性能とQwen3-TTSモデルの設定方法に依存します。すべての処理はローカルで行われます。
任意の声で語られる物語を作成する
Voicebox には、物語をナレーション付きで生成するセクションもあります。あなたが望むことを指示するだけで、アプリは選択した声を使ってコンテンツを生成します。これは、楽しいコンテンツや子供向けの物語、ボイススケッチを作成するのに役立つ機能です。
Macでの私の使用経験Voicebox
macOSでVoiceboxをテストしたとき、クローン作成プロセスは迅速かつ簡単でした。数秒の音声でプロフィールを作成し、タイムライン上にいくつかの音声クリップを生成するのに十分でした。体験はスムーズですが、品質を向上させるためのサンプルの追加やクローン音声の微調整など、いくつかの高度なオプションがまだ欠けています。
私が最も気に入った点
とVoicebox改善できる点
私が最も気に入った点: クローン作成と合成のプロセス全体がクラウドに依存せず、サブスクリプション料金を支払うことなく、Mac上でローカルに実行されることです。
· 改善したい点: より多様な音声カスタマイズと複数の音声サンプルのサポート。これにより、より現実的な結果が得られるでしょう。さらに、生成時間はデバイスの性能や選択したモデルによって異なる場合があります。
Voicebox はあなたのためです...
✓ クラウドサービスに頼らずに、macOSで声をクローンし、音声を生成したい。
✓ ポッドキャスト、吹き替え、ゲーム、またはAIエージェントに関わっており、ボイスシーンのためのタイムラインエディターが必要です。
✓ 他のプロジェクトに統合できる、ローカルでプライベートなオープンソースのソリューションを好みます。
ダウンロード Voicebox して、Qwen3-TTSとWhisperをサポートする完全なローカル音声クローンおよび合成スタジオにMacを変えましょう。
コメント
Voiceboxへのコメントはまだありません。誰よりも先にコメントしましょう! コメント