CosyVoice2.0:革新性AI语音模型优势尽显

CosyVoice2.0:革新性AI语音模型优势尽显

内容预览

【CosyVoice2.0:革新性AI语音模型优势尽显】

CosyVoice 2.0作为一款AI语音模型,在12月17日迎来重要更新,同步官方代码并纳入CosyVoice2-0.5B模型,性能表现令人瞩目。

相较于旧版本,其进步十分显著。在发音精准度上,错误率降低30%-50%,吐字清晰程度如同达到“普通话一级甲等”水平,对于绕口令、多音词及稀有字符的处理实现重大突破,在SEED困难测试集中展现出最低的单词错误率。音质从5.4分提升至5.53分,虽然提升幅度看似不大,但带来的听觉感受更加舒适自然,宛如“天籁之音”。延迟方面,做到了低至150ms的超低延迟,在实时语音交互、在线语音翻译场景中极为流畅,彻底告别卡顿现象。

该模型功能丰富。它专注自然语音生成,支持中英日粤韩五种语言,效果远超同类旧模型。仅需3-10秒原始音频,就能模仿用户声音,韵律、情感也能精准复刻,甚至实现跨语种生成,堪称“变声神器”。还支持通过富文本或自然语言控制语音情感与韵律,表现力大大增强。

研究团队提供了一系列模型。基模型CosyVoice-300M奠定基础,微调后的CosyVoice-300M-SFT针对性优化,CosyVoice-300M-Instruct能更好理解用户对情感控制的需求,情感控制能力更强,最新的CosyVoice-300M-25Hz模型则满足多样化使用场景。

此外,它还支持文本和语音双向流,在TTS和语音聊天等场景中能凭借超低延迟无缝适配。在零镜头语音生成和跨语言合成上,呈现出更高保真度与更稳定的说话人效果 。其升级的Instruct功能,在保持说话人一致性的同时,提供了丰富的自然语言控制,让语音合成效果更加多样化、动态化 。

会员区

对不起,会员才可查看!请注册
已注册,请登录

http://www.51wen66.com/TUSC/202506/c1szomsnlfo.jpg

返回顶部