![MockingBird离线语音合成中文TTS整合包使用教程[吾爱原创首发]](http://www.51wen66.com/TUSC/202410/wjdsgsnxis4.png)
内容预览
📖 各位学者,今天我们将探讨MockingBird离线语音合成中文TTS整合包的使用教程。MockingBird是一款实时语音克隆软件,它能够便捷地进行语音克隆,支持普通话,并使用不同的音色进行文字转语音(TTS)。
💼 为什么MockingBird无需安装环境即可使用?这是因为我们采用了便携版的Python,将所有必要的环境、依赖和模型都打包在内,用户无需手动安装任何额外组件。
🔧 如何使用MockingBird:
1️⃣ 下载并解压:在本页面右侧下载压缩包,并在至少有5G空间的磁盘上解压,注意路径中不能包含中文。解压后,双击运行工具箱或web程序即可开始使用。
1️⃣ 工具箱操作:
- 在【Utterance(音频)】区域,可以选择内置音频、打开本地音频或录制自己的声音。
- 点击【Synthesizer】选择声学模型,我们提供了预训练模型和针对特定声音微调过的模型,以获得更好的合成效果。
- 【Vocoder】声码器的选择,可以先用g_hifigan快速合成,或选择pretrained以获得更高质量的音频。
合成过程分为两步:声学模型合成梅尔图和声码器合成音频。合成完成后,音频会出现在【Toolbox Output】区域,可以重听或导出。
🎛️ 其他选项:
- 【Random seed】可能用于固定合成中的随机种子。
- 【Enhance vocoder output】自动裁剪非语音部分以改善效果。
- 【Style/Accuracy】的具体作用尚不明确,建议咨询作者。
- 【最大句长】应设置为最大值,以避免长句合成时的截断。
🔄 工具箱-vc模式:
- 选择或上传两条音频,一条作为音色参考,另一条作为内容输入,然后点击【Extract and Convert】进行音色转换。
🌐 Web程序:
- 双击运行web程序,复制地址到浏览器中,操作流程与工具箱相似,可以在web界面上传音频或使用示例音频进行合成。
📝 其他细节:
- 环境中安装的是CPU版本的PyTorch,仅适用于合成,不适用于训练。如需训练,需自行安装GPU版本的PyTorch及CUDA、CUDNN等环境。
- 如需安装其他包,可在【命令行】中使用python -m pip命令进行安装。
- C++编译环境是必需的,因为部分包包含C语言源码,需要编译后才能安装。已将需要编译的包预编译并放置在lib目录下。
- 重新获取项目时,备份所有.pt文件,删除源MockingBird文件夹,双击【获取项目】从GitHub重新克隆项目。
- 更新项目时,双击【更新项目】。
- GitHub访问失败时,可重试或稍后再试。
- 其他模型可在GitHub项目的issue中查找,下载后放置在MockingBird\synthesizer\saved_models目录下。
📈 MockingBird与PaddleSpeech:
虽然两者都能实现语音克隆,但PaddleSpeech的小样本微调更具实践价值。MockingBird的开发进度较慢,且缺乏开源数据集支持。PaddleSpeech在TTS全职开发人员数量上有优势,且数据标注、预处理、微调训练已实现自动化。建议有语音克隆需求的用户尝试两者,找到最适合自己的解决方案。