清华开源CogVideoX，开启AI视频生成新篇

内容预览

【清华开源CogVideoX，开启AI视频生成新篇】

在AI技术日新月异的当下，视频生成领域迎来了一款极具潜力的开源项目——CogVideoX，由清华大学团队精心打造，为文本转视频能力开拓了新境界。

CogVideoX是基于Transformer架构的大型文本生成视频模型。它于2022年5月首次开源亮相，并在2024年8月6日完成重大升级，开源3DCausalVAE技术用于CogVideoX-2B模型，实现视频近乎无损的重构，同时开源CogVideoX-2B模型，极大推动了视频生成领域的发展。

该模型支持英语提示词，能够生成时长6秒、每秒8帧、分辨率为720×480的视频。在推理显存消耗方面，使用diffusers为36GB，运用SAT则降至18GB，微调显存消耗为42GB，提示词长度上限达226Tokens。

CogVideoX采用新型DiT架构，能更高效地压缩视频信息，让文本与视频内容实现更好融合，有效增强了模型对复杂指令的遵从能力，确保生成视频内容连贯、画面调度合理。相比前代，其推理速度大幅提升6倍。通过自研视频理解模型，CogVideoX构建了包含详细文本描述的高质量视频片段集合，即使面对复杂指令，也能精准理解并生成契合的视频内容。

在实际使用中，用户将其制作成本地一键启动包，在个人电脑即可便捷操作，免除隐私泄露与环境配置的困扰。电脑需为Windows 10/11 64位操作系统，配备24G显存以上的英伟达显卡。解压文件后注意避免中文路径，双击“run.exe”运行，软件会自动打开浏览器，用户即可开启创作。输入提示词时，可运用“(镜头语言+景别角度+光影)+主体(主体描述)+主体运动+场景(场景描述)+(氛围)”的结构，如“镜头平移、近景、自然光下，可爱的儿童欢快奔跑在乡村田野，氛围轻松愉悦”，以此提升生成视频的质量与符合度。

CogVideoX不仅革新了视频创作方式，还为视频生成领域的研究提供了宝贵资源与全新思路，助力创作者将奇思妙想高效转化为精彩视频。

会员区

会员快捷功能：一键复制一键改写

对不起，会员才可查看！请注册！

已注册，请登录！