内容预览
还得是清华,开源版可灵、SoraAI视频生成整合包!探索视频生成的未来:CogVideoX项目介绍
随着人工智能技术的飞速发展,视频生成已经成为现实。今天,我们有幸介绍一个令人兴奋的开源项目——CogVideoX,由清华大学团队开发,它将文本转换为视频的能力带到了一个新的高度。CogVideoX:视频生成的新篇章CogVideoX是一个基于Transformer的大型文本生成视频模型,它在2022年5月首次开源,并在2024年8月6日迎来了重大更新。最新的更新包括开源3DCausalVAE技术,用于CogVideoX-2B模型,几乎无损地重构视频。同时,开源了CogVideoX系列的第一个模型——CogVideoX-2B,为视频生成领域带来了新的活力。技术细节与性能CogVideoX模型支持英语提示词,能够生成6秒长、每秒8帧、分辨率为720*480的视频。目前,使用diffusers的推理显存消耗为36GB,而使用SAT的推理显存消耗为18GB。此外,微调显存消耗为42GB,提示词长度上限为226Tokens。快速上手指南开源地址:CogVideoXGitHub上述AI工具已经制作成了本地一键启动包,你只需点击即可在个人电脑使用,再也不用担心泄露隐私和配置环境出现各种问题。电脑配置要求Windows10/1164位操作系统24G显存以上英伟达显卡下载和使用教程下载压缩包:下载地址:5116/
解压文件:解压后,最好不要有中文路径,双击“run.exe”文件运行。
浏览器访问:软件会自动打开浏览器,界面如下所示。
文生视频提示词技巧提示词的精确度与细节水平直接影响视频内容的质量。采用结构化提示词可以极大提升视频内容的符合度和专业性。以下是构建提示词的关键组成部分:提示词=(镜头语言+景别角度+光影)+主体(主体描述)+主体运动+场景(场景描述)+(氛围)镜头语言:通过镜头的各种应用以及镜头之间的衔接和切换来传达故事或信息,并创造出特定的视觉效果和情感氛围。如镜头平移,推近、拉远、升降拍摄、摇摄、跟随拍摄、手持拍摄、无人机航拍等;景别角度:控制相机与被摄对象之间距离和角度,实现不同的视觉效果和情感表达。如大全景、中景、近景、鸟瞰视角、跟随视角、鱼眼效果等;光影:光影是赋予摄影作品灵魂的关键元素,光影的运用可以使照片更具深度,更具情感,我们可以通过光影创造出富有层次感和情感表达力的作品。如自然光、丁达尔效应、柔和散射、硬光直射、逆光剪影、三点布光等;主体:主体是视频中的主要表现对象。如儿童、狮子、向日葵,汽车、城堡等;主体描述:对主体外貌细节和肢体姿态等的描述,如人物的服饰、动物的毛色、植物的颜色、物体的状态和建筑的风格;主体运动:对主体运动状态的描述,包括静止和运动等,运动状态不宜过于复杂,符合6s视频内可以展现的画面即可,场景:场景是主体所处的环境,包括前景、背景等;场景描述:对主体所处环境的细节描述。如都市环境、乡村风光、工业区等;氛围:对预期视频画面的氛围描述。如喧嚣繁忙、悬疑惊悚、宁静舒适等;其它技巧关键词重复:在提示的不同部分重复或强化关键词有助于提高输出的一致性。如:摄像机以超高速镜头快速飞过森林;聚焦内容:提示词应集中在视频中应有的内容上。如:冷清的街道,而不是“没有人的街道”;是不是超级期待?那就赶紧去试试吧!清华的这个开源项目,绝对会让你大开眼界!
会员区