AI视频工具
Phenaki
Phenaki是一种全新的视频生成模型,能够依据一系列文本提示生成逼真的视频。在传统视频生成中,计算成本和高质量文本视频数据的数量有限是主要挑战,尤其是在视频长度可变的情况下。为了解决这些难题,Phenaki引入了一种全新的因果模型,用于视频表示学习。
这种模型通过压缩视频为离散标记的小型表示,并使用因果注意力处理可变长度的视频,从而大幅提高了视频生成的灵活性。Phenaki采用了双向屏蔽转换器,以预先计算好的文本标记为条件进行生成,最后将视频令牌去令牌化,创建实际的视频。
在数据方面,Phenaki通过联合训练大量图像文本对和少量视频文本示例,实现了超越视频数据集中可用内容的泛化。与现有的每帧基线视频生成方法相比,Phenaki在时空质量和生成视频的令牌数量方面表现更优。
此外,Phenaki是首个能够根据开放域中的一系列提示(如时间可变的文本或故事)生成任意长视频的模型。它在时空质量和每个视频的令牌数量方面,优于当前文献中所有每帧基线。
Phenaki的应用前景也非常广泛,不仅可以用于娱乐和媒体制作,还可以应用于教育和科研领域,提供丰富的可视化内容。
总之,Phenaki标志着视频生成技术的新里程碑,开创了通过文本生成高质量、任意长度视频的新纪元。
数据统计
相关导航
暂无评论...