Voicebox 是一个开源应用,可以将您的 Mac 变成一个小型本地语音合成和克隆工作室。它使用Qwen3-TTS模型直接在您的设备上生成逼真的音频,无需依赖云服务、令牌或付费订阅。
一款为macOS设计的语音克隆应用
通过Voicebox,您可以从几秒钟的参考音频(最多30秒)创建语音配置文件。Qwen3-TTS模型分析音调、音色和口音,以相当高的保真度再现它们。您只需上传一个语音文件或从您的Mac麦克风录制一个,指定所说的内容,或使用自动转录功能,就可以准备好一个配置文件来生成新的音频,而无需重复此过程。
使用自定义语音配置文件生成音频
一旦您保存了个人资料,只需输入您想要的文本,Voicebox 就会用那个声音生成音频。这使您能够将短语翻译成其他语言,同时保持您的语气,因此您可以创建家庭配音或为视频游戏项目生成声音。您还可以导出语音配置文件并与其他用户共享,以便他们可以在自己的设备上生成音频。
自动转录和系统声音捕获
该应用集成了Whisper,将音频转换为文本并与生成的语音同步。这使得可以更轻松地直接在时间线上编辑对话,调整停顿或纠正发音,而不会丢失声音配置文件的一致性。此外,它包括系统音频捕获功能,可以让您录制Mac上的声音(例如来自游戏或通话),并将其用作新克隆或音频场景的参考。
本地语音服务器和其他项目的API
Voicebox 不仅仅是其图形界面;由于其集成的REST API,它还可以作为本地语音服务器。您可以通过单击激活它,从游戏、应用程序或AI代理发送文本,并以标准格式获取生成的音频。这有助于实现叙述、对话或通知自动化,而无需依赖外部服务。该应用程序使用Tauri、Rust和Python开发,这使得它比许多基于Electron的替代方案更轻量。即便如此,性能将取决于您的 Mac 的性能以及 Qwen3-TTS 模型的设置方式,因为所有处理都是在本地进行的。
用任何声音创建叙述故事
Voicebox 还包括一个用于生成叙述故事的部分。你只需指明你想要发生的事情,应用程序就会使用你选择的声音生成内容。这是一个用于创作有趣内容、儿童故事或语音草图的实用功能。
我在Mac上使用Voicebox的体验
当我在macOS上测试Voicebox时,克隆过程快速且简单:几秒钟的音频就足以创建一个配置文件并在时间线上生成多个语音片段。体验很流畅,尽管仍然缺少一些高级选项,比如添加更多样本以提高质量或微调克隆的声音。
我最喜欢的Voicebox以及可以改进的地方
我最喜欢的是:整个克隆和合成过程都在您的 Mac 上本地完成,无需依赖云端或支付订阅费用。
· 我会改进的地方:更大的语音自定义和对多个音频样本的支持,因为这将有助于实现更真实的效果。此外,生成时间可能会因设备的性能和所选模型而有所不同。
Voicebox 适合你,如果...
您希望在macOS上克隆声音并生成语音音频,而不依赖云服务。
✓ 您从事播客、配音、游戏或人工智能代理的工作,并且需要一个用于语音场景的时间轴编辑器。
✓ 您更喜欢可以集成到其他项目中的本地、私有和开源解决方案。
下载Voicebox,将您的Mac变成一个完全本地的语音克隆和合成工作室,支持Qwen3-TTS和Whisper。
评论
还没有关于 Voicebox 的评论。成为最先发表评论的人吧! 评论