小米最新开源!覆盖600语种方言声音克隆TTS,只需3-10秒声音,可控一键合成声音,超40倍速 OmniVoice
2026/5/26 8:46:40
吾爱
# 小米开源神器!600 语种方言声音克隆 TTS 来袭宝子们,今天要给大家介绍一款超厉害的开源技术——小米最新开源的 OmniVoice!它可是覆盖 600 语种方言的声音克隆 TTS 哦,只需 3 - 10 秒声音,就能可控一键合成声音,还有超 40 倍速呢!OmniVoice 是一款超先进的大规模多语言零样本文本到语音(TTS)模型,支持 600 多种语言。这覆盖范围,简直无敌啦!它基于新颖的扩散语言模型架构,能以超快速度生成高质量语音,还支持语音克隆和声音设计。咱来看看它都有啥特点。超广语言覆盖,600 + 语言都支持,在零样本 TTS 里覆盖范围最广。零样本语音克隆超厉害,只要 3 - 10 秒参考音频,不用训练就能复刻音色,而且质量顶尖。自由语音设计也很棒,用文本指令就能控制性别、年龄、音高、口音 / 方言、耳语等,都不用参考音。极速推理更是一绝,RTF 低至 0.025,比实时快 40 倍,批量和实时场景都很适合。精细发音控制也不错,支持笑声、叹气等非语言标记,还能强制纠音。架构简洁高效,扩散语言模型结构兼顾了音质、速度与扩展性。易用部署也贴心,一键启动 Web UI,还有离线整合包,大家有需要就试试。而且它完全开源,GitHub 开源后可本地部署,能离线运行,还能二次开发,对商用也友好。宝子们,这么厉害的 OmniVoice,软件截图和视频演示都超精彩。感兴趣的赶紧去试试,让它为你的语音创作等带来更多可能!