谷歌推出了Lumiere——使用机器学习生成真实文本到图像和文本到视频的最新产品。一项关键的创新是能够创建逼真的运动,例如当前的生成式人工智能无法做到的行走。该软件通过一次创建所有视频帧来实现这一点,而不是使用关键帧和训练来学习移动物体应该如何显示。
谷歌推出了Lumiere,这是现实文本到图像和视频生成人工智能领域最先进的技术。该软件通过使用一种新颖的视频帧生成方法极大地改进了运动,该方法一次性创建所有帧以减少运动错误。
生成图像人工智能从文本创建图像。实现这一目标的关键是有大量可用于培训的在线图像和视频。另一个是开发通过向量将语言中的所有单词相互关联的方法。因此,AI可以理解为一对单词,或者在一个句子中,“我是”比“我单方面”更有可能。稳定扩散等图像创建人工智能将文字与物体图像相关联。这种人工智能理解“皇家住所”这个词与“城堡”图像的联系比“房屋”图像更紧密。
生成视频AI扩展了图像AI,可以从文本创建视频。Lumiere竞争对手首先创建关键帧,然后创建关键帧之间的帧。这就像动画大师绘制篮球投篮的开始和结束图像,然后让助手绘制中间的图像。问题是,由于中间图像未正确绘制,经常会发生运动错误,因此Lumiere通过创建没有关键帧的所有视频帧来绕过此问题。此外,Lumiere经过训练,可以了解移动物体在不同图像尺寸下的样子,因此它的视频看起来非常出色。
从技术上讲,Lumiere利用扩散概率模型来生成与时空U-Net相结合的图像,这是一种具有时间上下缩放功能的U-net架构,并且在通常的图像分辨率缩放中添加了注意力块。与分辨率同时进行的时间缩小可显着减少计算工作量,而放大与时间感知的空间超分辨率模型相结合可生成高分辨率输出。尽管如此,由于内存限制,仍然需要图像帧分割,因此在重叠的帧段边界上使用多重扩散来帮助减轻时间运动伪影。
Lumiere可以与其他人工智能结合以创建更广泛的输出。这包括:
Cinemagraphs-图像的一部分是动画的
修复-视频中的一个对象被另一个对象替换
风格化一代——外观以另一种艺术风格重新打造
图像到视频-所需的图像被动画化
视频到视频–以另一种艺术风格重新创建视频
视频长度限制为5秒,而创建视频过渡和多个摄像机角度的能力不存在。有兴趣在台式计算机上尝试生成式人工智能的读者应该升级到功能强大的显卡(例如亚马逊的显卡),以便在训练期间获得最佳性能。