内容预览
【阿里Qwen2.5-Omni:7B参数的全模态大模型强者】3月27日凌晨,阿里巴巴带来重磅消息,发布并开源首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B。此模型凭借独特优势,成为大模型领域的焦点。
Qwen2.5-Omni核心能力突出。它是Qwen系列首个全模态模型,能同时处理文本、图像、音频和视频多种输入模态,实现全模态处理。作为端到端模型,它可无缝整合不同模态信息,直接生成输出,无需多个独立模块协同。并且,它能够以流式方式实时生成文本和自然流畅的语音合成输出,契合语音聊天、视频通话这类需即时反馈的交互式应用场景。
该模型具有诸多显著特点。在架构上,采用全新的Thinker-Talker架构,这一端到端多模态模型支持跨模态理解,还提出TMRoPE新型位置编码技术,实现视频与音频输入的精准同步。在交互方面,架构支持完全实时交互,分块输入与即时输出不在话下。语音生成的自然性和稳定性也超越众多现有流式与非流式方案。在性能上,与同等规模单模态模型对比,全模态性能优势尽显,音频能力优于类似大小的Qwen2-Audio,与Qwen2.5-VL-7B性能相当。在端到端语音指令跟随能力上,其表现与文本输入处理效果媲美,在MMLU通用知识理解和GSM8K数学推理等基准测试中成绩优异。
在各类测评中,Qwen2.5-Omni表现卓越。在多模态任务OmniBench上达到SOTA水平,在图像、音频、音视频等多种模态下,表现优于同等规模单模态模型及一些闭源模型,如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro 。在单模态任务中,于语音识别、翻译、音频理解、图像推理、视频理解以及语音生成等多个领域均表现出色。
值得一提的是,相较于参数动辄数千亿的闭源大模型,Qwen2.5-Omni仅7B的参数规模,尺寸小巧,对端侧部署尤其手机本地部署十分友好,让全模态大模型在产业上的广泛应用成为可能 。