内容预览
【清华开源CogVideoX,开启AI视频生成新篇】在AI技术日新月异的当下,视频生成领域迎来了一款极具潜力的开源项目——CogVideoX,由清华大学团队精心打造,为文本转视频能力开拓了新境界。
CogVideoX是基于Transformer架构的大型文本生成视频模型。它于2022年5月首次开源亮相,并在2024年8月6日完成重大升级,开源3DCausalVAE技术用于CogVideoX-2B模型,实现视频近乎无损的重构,同时开源CogVideoX-2B模型,极大推动了视频生成领域的发展。
该模型支持英语提示词,能够生成时长6秒、每秒8帧、分辨率为720×480的视频。在推理显存消耗方面,使用diffusers为36GB,运用SAT则降至18GB,微调显存消耗为42GB,提示词长度上限达226Tokens。
CogVideoX采用新型DiT架构,能更高效地压缩视频信息,让文本与视频内容实现更好融合,有效增强了模型对复杂指令的遵从能力,确保生成视频内容连贯、画面调度合理。相比前代,其推理速度大幅提升6倍。通过自研视频理解模型,CogVideoX构建了包含详细文本描述的高质量视频片段集合,即使面对复杂指令,也能精准理解并生成契合的视频内容。
在实际使用中,用户将其制作成本地一键启动包,在个人电脑即可便捷操作,免除隐私泄露与环境配置的困扰。电脑需为Windows 10/11 64位操作系统,配备24G显存以上的英伟达显卡。解压文件后注意避免中文路径,双击“run.exe”运行,软件会自动打开浏览器,用户即可开启创作。输入提示词时,可运用“(镜头语言+景别角度+光影)+主体(主体描述)+主体运动+场景(场景描述)+(氛围)”的结构,如“镜头平移、近景、自然光下,可爱的儿童欢快奔跑在乡村田野,氛围轻松愉悦”,以此提升生成视频的质量与符合度。
CogVideoX不仅革新了视频创作方式,还为视频生成领域的研究提供了宝贵资源与全新思路,助力创作者将奇思妙想高效转化为精彩视频 。