MockingBird离线语音合成中文TTS整合包使用教程[吾爱原创首发]

内容预览

📖 各位学者，今天我们将探讨MockingBird离线语音合成中文TTS整合包的使用教程。MockingBird是一款实时语音克隆软件，它能够便捷地进行语音克隆，支持普通话，并使用不同的音色进行文字转语音（TTS）。

💼 为什么MockingBird无需安装环境即可使用？这是因为我们采用了便携版的Python，将所有必要的环境、依赖和模型都打包在内，用户无需手动安装任何额外组件。

🔧 如何使用MockingBird：

1️⃣ 下载并解压：在本页面右侧下载压缩包，并在至少有5G空间的磁盘上解压，注意路径中不能包含中文。解压后，双击运行工具箱或web程序即可开始使用。

1️⃣ 工具箱操作：

- 在【Utterance(音频)】区域，可以选择内置音频、打开本地音频或录制自己的声音。

- 点击【Synthesizer】选择声学模型，我们提供了预训练模型和针对特定声音微调过的模型，以获得更好的合成效果。

- 【Vocoder】声码器的选择，可以先用g_hifigan快速合成，或选择pretrained以获得更高质量的音频。

合成过程分为两步：声学模型合成梅尔图和声码器合成音频。合成完成后，音频会出现在【Toolbox Output】区域，可以重听或导出。

🎛️ 其他选项：

- 【Random seed】可能用于固定合成中的随机种子。

- 【Enhance vocoder output】自动裁剪非语音部分以改善效果。

- 【Style/Accuracy】的具体作用尚不明确，建议咨询作者。

- 【最大句长】应设置为最大值，以避免长句合成时的截断。

🔄 工具箱-vc模式：

- 选择或上传两条音频，一条作为音色参考，另一条作为内容输入，然后点击【Extract and Convert】进行音色转换。

🌐 Web程序：

- 双击运行web程序，复制地址到浏览器中，操作流程与工具箱相似，可以在web界面上传音频或使用示例音频进行合成。

📝 其他细节：

- 环境中安装的是CPU版本的PyTorch，仅适用于合成，不适用于训练。如需训练，需自行安装GPU版本的PyTorch及CUDA、CUDNN等环境。

- 如需安装其他包，可在【命令行】中使用python -m pip命令进行安装。

- C++编译环境是必需的，因为部分包包含C语言源码，需要编译后才能安装。已将需要编译的包预编译并放置在lib目录下。

- 重新获取项目时，备份所有.pt文件，删除源MockingBird文件夹，双击【获取项目】从GitHub重新克隆项目。

- 更新项目时，双击【更新项目】。

- GitHub访问失败时，可重试或稍后再试。

- 其他模型可在GitHub项目的issue中查找，下载后放置在MockingBird\synthesizer\saved_models目录下。

📈 MockingBird与PaddleSpeech：

虽然两者都能实现语音克隆，但PaddleSpeech的小样本微调更具实践价值。MockingBird的开发进度较慢，且缺乏开源数据集支持。PaddleSpeech在TTS全职开发人员数量上有优势，且数据标注、预处理、微调训练已实现自动化。建议有语音克隆需求的用户尝试两者，找到最适合自己的解决方案。

会员快捷功能：一键复制一键改写

对不起，会员才可查看！请注册！

已注册，请登录！