内容预览
【Dia16B一键启动包开源文本转语音模型介绍】Dia-1.6B是NariLabs推出的拥有16亿参数的开源文本转语音模型,在自然对话生成领域表现出色,是ElevenLabs等商业产品的有力竞争者。
它专为“多说话人对话场景”设计,只需文字脚本和简单的角色标签,就能自动生成逼真的英语对话音频。其亮点众多,能模拟不同人物之间的切换,还可模拟笑声、咳嗽等非言语声音,让合成效果更加生动。在多人真实对话方面,通过标签区分角色,每个角色都有独特的声音和表现力,适合播客、多角色朗读等场景。高还原非语言表达功能,依据文本描述自动加入相应效果,使听感富有生活气息。同时,支持上传参考人声音频,可复刻指定人物音色或改变情绪。
该模型完全开源免费,在HuggingFace上公开权重和代码,支持个人、本地甚至离线使用,无反复付费问题,开发者可自行部署,保障隐私并进行二次开发。为方便使用,还制作了本地一键启动包,用户点击即可在个人电脑上使用,无需担心隐私泄露和配置环境问题。不过,使用时电脑需满足Windows10/11 64位操作系统、8G显存以上英伟达显卡、CUDA>=12.1的配置要求。
Dia-1.6B应用前景广阔,适用于AI播客、剧本朗读、游戏配音、多角色故事讲述、个性化虚拟助手、辅助交流与无障碍阅读工具等场景,其开放性质也为创作者和企业自主定制提供了便利。