由快手智库团队潜心研发的可灵大模型,是一款创新的视频生成系统。该模型独具一格的3D时空注意力网络,使得它能够生成长达两分钟、每秒30帧的高清视频。可灵大模型拥有仿真物理环境的能力,能够将用户的想象化为现实的影像。此外,它还提供多种视频格式的选择,满足不同场景下的视频制作及创意输出需求。
不仅如此,以“可灵”大模型为基础,未来将拓展更多的应用场景,其中即将推出的“AI唱跳”功能是一大亮点。这一功能可以同步控制人物的面部表情和身体动作,仅需一张图像作为输入,即可生成具有唱跳表演效果的视频内容。
大幅度的合理运动
可灵采用3D时空联合注意力机制,能够更好地建模复杂时空运动,生成较大幅度运动的视频内容,同时能够符合运动规律。
长达2分钟的视频生成
得益于高效的训练基础设施、极致的推理优化和可扩展的基础架构,可灵大模型能够生成长达2分钟的视频,且帧率达到30fps。
模拟物理世界特性
基于自研模型架构及ScalingLaw激发出的强大建模能力,可灵能够模拟真实世界的物理特性,生成符合物理规律的视频。
强大的概念组合能力
基于对文本-视频语义的深刻理解和DiffusionTransformer架构的强大能力,可灵能够将用户丰富的想象力转化为具体的画面,虚构真实世界中不会出现的的场景。
电影级的画面生成
基于自研3DVAE,可灵能够生成1080p分辨率的电影级视频,无论是浩瀚壮阔的宏大场景,还是细腻入微的特写镜头,都能够生动呈现。
支持自由的输出视频宽高比
可灵采用了可变分辨率的训练策略,在推理过程中可以做到同样的内容输出多种多样的视频宽高比,满足更丰富场景中的视频素材使用需求。