MockingBird离线语音合成中文TTS整合包使用教程[吾爱原创首发]

MockingBird离线语音合成中文TTS整合包使用教程[吾爱原创首发]

内容预览

📖 各位学者,今天我们将探讨MockingBird离线语音合成中文TTS整合包的使用教程。MockingBird是一款实时语音克隆软件,它能够便捷地进行语音克隆,支持普通话,并使用不同的音色进行文字转语音(TTS)。

💼 为什么MockingBird无需安装环境即可使用?这是因为我们采用了便携版的Python,将所有必要的环境、依赖和模型都打包在内,用户无需手动安装任何额外组件。

🔧 如何使用MockingBird:

1️⃣ 下载并解压:在本页面右侧下载压缩包,并在至少有5G空间的磁盘上解压,注意路径中不能包含中文。解压后,双击运行工具箱或web程序即可开始使用。

1️⃣ 工具箱操作:

- 在【Utterance(音频)】区域,可以选择内置音频、打开本地音频或录制自己的声音。

- 点击【Synthesizer】选择声学模型,我们提供了预训练模型和针对特定声音微调过的模型,以获得更好的合成效果。

- 【Vocoder】声码器的选择,可以先用g_hifigan快速合成,或选择pretrained以获得更高质量的音频。

合成过程分为两步:声学模型合成梅尔图和声码器合成音频。合成完成后,音频会出现在【Toolbox Output】区域,可以重听或导出。

🎛️ 其他选项:

- 【Random seed】可能用于固定合成中的随机种子。

- 【Enhance vocoder output】自动裁剪非语音部分以改善效果。

- 【Style/Accuracy】的具体作用尚不明确,建议咨询作者。

- 【最大句长】应设置为最大值,以避免长句合成时的截断。

🔄 工具箱-vc模式:

- 选择或上传两条音频,一条作为音色参考,另一条作为内容输入,然后点击【Extract and Convert】进行音色转换。

🌐 Web程序:

- 双击运行web程序,复制地址到浏览器中,操作流程与工具箱相似,可以在web界面上传音频或使用示例音频进行合成。

📝 其他细节:

- 环境中安装的是CPU版本的PyTorch,仅适用于合成,不适用于训练。如需训练,需自行安装GPU版本的PyTorch及CUDA、CUDNN等环境。

- 如需安装其他包,可在【命令行】中使用python -m pip命令进行安装。

- C++编译环境是必需的,因为部分包包含C语言源码,需要编译后才能安装。已将需要编译的包预编译并放置在lib目录下。

- 重新获取项目时,备份所有.pt文件,删除源MockingBird文件夹,双击【获取项目】从GitHub重新克隆项目。

- 更新项目时,双击【更新项目】。

- GitHub访问失败时,可重试或稍后再试。

- 其他模型可在GitHub项目的issue中查找,下载后放置在MockingBird\synthesizer\saved_models目录下。

📈 MockingBird与PaddleSpeech:

虽然两者都能实现语音克隆,但PaddleSpeech的小样本微调更具实践价值。MockingBird的开发进度较慢,且缺乏开源数据集支持。PaddleSpeech在TTS全职开发人员数量上有优势,且数据标注、预处理、微调训练已实现自动化。建议有语音克隆需求的用户尝试两者,找到最适合自己的解决方案。



会员区

对不起,会员才可查看!请注册
已注册,请登录
返回顶部