Phenaki：前所未有的文本生成视频模型 | AI工具导航

Phenaki是一种全新的视频生成模型，能够依据一系列文本提示生成逼真的视频。在传统视频生成中，计算成本和高质量文本视频数据的数量有限是主要挑战，尤其是在视频长度可变的情况下。为了解决这些难题，Phenaki引入了一种全新的因果模型，用于视频表示学习。

这种模型通过压缩视频为离散标记的小型表示，并使用因果注意力处理可变长度的视频，从而大幅提高了视频生成的灵活性。Phenaki采用了双向屏蔽转换器，以预先计算好的文本标记为条件进行生成，最后将视频令牌去令牌化，创建实际的视频。

在数据方面，Phenaki通过联合训练大量图像文本对和少量视频文本示例，实现了超越视频数据集中可用内容的泛化。与现有的每帧基线视频生成方法相比，Phenaki在时空质量和生成视频的令牌数量方面表现更优。

此外，Phenaki是首个能够根据开放域中的一系列提示（如时间可变的文本或故事）生成任意长视频的模型。它在时空质量和每个视频的令牌数量方面，优于当前文献中所有每帧基线。

Phenaki的应用前景也非常广泛，不仅可以用于娱乐和媒体制作，还可以应用于教育和科研领域，提供丰富的可视化内容。

总之，Phenaki标志着视频生成技术的新里程碑，开创了通过文本生成高质量、任意长度视频的新纪元。

数据统计

Moonvalley是一款通过文本提示创建短视频的生成AI工具。

百度出品AIGC创作工具网站

Colourlab.ai是一款专业的AI视频颜色分级工具。

GoEnhance AI是一款AI驱动的视频和图像编辑工具，提升画质，实现创意编辑。

科大讯飞旗下AI视频创作平台

D-human数字人提供领先的智能语音和互动技术，提升客户体验。

暂无评论...