Meta最近发布了一个人工智能系统,可以根据文本提示生成短视频。
本站了解到,这个系统名为Make—A—Video,它允许用户输入一系列单词,例如一只穿着超级英雄服装的狗和一件红色斗篷在天上飞,然后生成一个五秒钟的短视频。
上个月,人工智能实验室OpenAI向大家提供了其最新的文本到图像人工智能系统DALL—E,而人工智能初创公司StabilityAI推出了稳定扩散,一个开源的文本到图像系统
但是文本到视频的人工智能系统面临着一些更大的挑战首先,这些模型需要大量的计算能力它们比大型文本到图像人工智能模型的计算量更大,后者使用数百万张图像进行训练,因为仅拼凑一个短视频就需要数百张图像这意味着在可预见的未来,只有大型技术公司才能建立这些系统他们的训练也很棘手,因为没有高质量的视频和文本匹配的大规模数据集
为了解决这个问题,Meta结合了三个开源图像和视频数据集的数据来训练其模型标准文本到图像数据集的标记静态图像有助于人工智能学习对象的名称和它们的样子一个视频数据库帮助它了解这些物体应该如何在世界各地移动这两种方法的结合有助于Make—A—Video大规模地从文本生成视频
Meta的发言人表示,这款车型目前还没有向公众提供作为这项研究的一部分,我们将继续探索进一步改善和降低潜在风险的方法