GPT-SoVITS-WebUI一键整合包及使用教程，更新至V2版本

内容预览

会员专属，加入会员后，所有内容免费下载，可永久使用！在个人中心每日签到可白嫖会员！

GPT-SoVITS-WebUI一键整合包及使用教程2024-8-30日，更新V2版本V1&V2模型对比及V2新特性1.V2模型新特性

(1)SoVITS增强：对于低音质参考音频（尤其是网络音频中常见的高频缺失、听感沉闷的音频），V2模型能够合成出更优质的音频。

(2)训练集扩充：训练集扩充至5k小时，zero-shot性能更佳，合成音色更接近目标音色。

(3)新增语种支持：新增韩语和粤语支持，现已支持五种语言间的互相跨语种合成。（跨语种合成指训练集、参考音频语种和目标合成语种可以互不相同。）

(4)文本前端优化：持续迭代更新，V2版本中，中文和英文文本前端加入了多音字优化。

2.V1与V2模型对比

特性V1(1月发布)V2语种支持（可互相跨语种合成）中文、日语、英语中文、日语、英语、韩语、粤语GPT训练集时长2k小时2.5k小时SoVITS训练集时长2k小时VQ编码器：2k小时，其他参数：5k小时推理速度基线提升一倍参数量200M保持不变文本前端基线中文、日语、英语逻辑均有增强功能基线新增语速调节、无参考文本模式、更优的混合语种切分

GPT-SoVITS-WebUI语音技术在人工智能的驱动下，正在以前所未有的速度推进。GPT-SoVITS-WebUI正是这一变革的先驱它利用少量的声音源，可以快速地训练出一个语音合成（Text-to-Speech，简称TTS）模型。

这个强大的Web界面工具不仅提供了零次学习和少量次学习的文本到语音（TTS）功能，还支持跨语言的语音转换，为语音技术的爱好者和开发者打开了一扇新的大门。

功能亮点：

零次TTS：只需输入一段5秒的语音样本，GPT-SoVITS-WebUI就能立即将其转换为文本，让你体验到即时的语音到文本的转换。

少次TTS：通过微调模型，只需1分钟的训练数据，就能显著提升语音的相似度和真实感，这对于个性化语音合成尤为关键。

跨语言支持：GPT-SoVITS-WebUI能够处理与训练数据集不同语言的语音，目前支持英语、日语和中文，这大大拓宽了其应用范围。

WebUI工具集成：工具中集成了多种实用功能，如语音伴奏分离、自动训练集分割、中文自动语音识别（ASR）和文本标注，这些工具对于初学者来说尤其友好，可以帮助他们轻松创建训练数据集和GPT/SoVITS模型。

学术Fun已将上述工具制作成一键启动包，点击即可使用，避免大家配置Python环境出现各种问题。下载地址：3670/，请在此页面右侧区域点击下载！

注意：电脑配置需要满足以下条件：

运行Windows10/1164位操作系统安装教程

下载压缩包下载地址：3670/，请在此页面右侧区域点击下载！

解压压缩包解压后的路径最好不要包含中文。解压完成后，如下图所示，双击启动.exe文件运行。

解压文件启动WebUI在浏览器中访问http://127.0.0.1:7860/，即可在浏览器中使用GPT-SoVITS-WebUI。WebUI界面使用教程获取数据集声音提取：选择“0a-UVR5人声伴奏分离&去混响去延迟工具”页签。我们需要勾选“是否开启UVR5-WebUI”来提取声音，制作干声。开启UVR5-WebUI稍等一下，会打开一个新的WebUI界面。

新的WebUI界面我们将在这个界面内完成提取干声的操作。将准备的音频或者视频文件拖放到左下角的框框内。

拖放音频或视频文件选择处理的模型。如果你的视频声音比较干净，可以选择HP2模型。如果背景声音很嘈杂，可以选择HP3模型。

选择处理模型选择输出格式，然后点击“转换”。

点击转换转换成功后，你可以在整合包output路径下的uvr5输出目录中找到转换结果。

转换结果语音切分：关闭“是否开启UVR5-WebUI”，以释放显存。关闭UVR5-WebUI删除刚刚音频分离路径下的背景声音，并将路径复制到下面的输入框里。

删除背景声音选择“0b-语音切分工具”页签。

选择语音切分工具点击“开始语音切割”。

开始语音切割完成后，你可以在\output\slicer_opt路径下看到切割后的所有音频文件。

语音识别：选择“0c-中文批量离线ASR工具”页签，将刚刚的分类目录路径复制到下面ASR中。中文批量离线ASR工具点击“开启离线批量ASR”。

开启离线批量ASR完成后，识别结果会保存在\output\asr_opt目录下。

开启标注工具：选择“0d-语音文本校对标注工具”页签，把上面ASR生成的list文件的完整路径填写到下面的标注文件路径中。开启标注工具点击“是否开启打标WebUI”，系统会提示打标工具已开启。稍等一会儿，会弹出新的WebUI窗口，这就是标注工具的WebUI界面。

标注工具WebUI界面在这个界面里面进行文本校对，修改标点符号与停顿一致。如果听不清，有杂音，语速乱的，建议删除。或者回去进行音源调整。

进行文本校对删除方式是先勾选，然后点击“删除”。一定要点“上一页”和“下一页”查看全部的，以免漏下。校对无误后点击保存，提交文本。

提交文本数据会保存到slicer_opt.list中。至此，我们已经完成了前置获取数据集的工作。

训练模型训练集格式化：点击“1A-训练集格式化工具”，进入训练集格式化界面。填写训练的模型名称，填写上面数据集的list目录和音频切分的目录。训练集格式化点击下面按钮“开启一键三连”。

开启一键三连结束后，我们会在\logs\YeShu文件下看见23456。

训练完成这里我们得到了后面需要训练的特征缓存文件。

微调训练：点击“1B-微调训练”页签，进入子模型训练界面。我们需要开启两个微调子模型的训练，参数默认即可。推荐使用20系以上的N卡，8G以上的显存。如果显存不够，可以降低batch_size的数值。

微调训练点击“开始SoVITS训练”和“开始GPT训练”。

开始SoVITS训练和GPT训练VITS训练需要一些时间，请耐心等待。

训练中训练中训练完成后，微调模型就已经准备好了。

推理：点击“1C-推理”页签，进入推理界面。推理界面首先我们点击“刷新模型路径按钮”，将刚刚训练的子模型拉取进来。

刷新模型路径然后点击“是否开启TTS推理WebUI”按钮，即可开启推理。

开启推理开启推理稍作等待，会弹出推理WebUI界面。

推理WebUI界面推理前我们需要给它一个目标音色参考音频，可以在\logs\YeShu\5-wav32k路径下取一个音频。

目标音色参考音频文本可以在\logs\YeShu\这个路径的这个文件里找到。

文本来源我们将音频和文字，还有语音填入推理界面相应的位置。

填入推理界面然后将我们想说的文本，填写到下面。并且选择一种切分方式，或者自己手动切分。

填写文本点击“合成语音”。

合成语音听一下效果：

到此，推理部分完。

我们现在已经获得了一个训练完成的TTS模型。可以在推理界面输入任何文本，让其进行朗读。

实时变声后续的变声部分还在更新当中。

实时变声结语：GPT-SoVITS-WebUI凭借其强大的功能和易用性，为语音技术的爱好者和开发者提供了一个强大的工具。它使得语音合成、识别和处理变得更加高效和便捷。随着技术的不断发展，我们期待GPT-SoVITS-WebUI能在未来的日子里，为语音技术的探索和应用带来更多的可能性。

会员区

会员快捷功能：一键复制一键改写

对不起，会员才可查看！请注册！

已注册，请登录！