标签:
导读 2月8日,苹果公司的研究人员发表了一篇论文,透露了该公司正在进行的人工智能工具研究,该工具可以通过文本提示为图像制作动画。现在,Chat
2月8日,苹果公司的研究人员发表了一篇论文,透露了该公司正在进行的人工智能工具研究,该工具可以通过文本提示为图像制作动画。
现在,ChatGPT和Dall-E的制造商OpenAI推出了其文本转视频模型Sora。
据OpenAI称,新模型可以从头开始生成长达一分钟的视频,“同时保持视觉质量并遵守用户的提示。”OpenAI页面上显示的超现实示例显示了这样的提示:“一部电影预告片,讲述了30岁太空人戴着红色羊毛针织摩托车头盔的冒险经历,蓝天、盐漠,电影风格,35毫米胶片拍摄,色彩鲜艳。”
通过如此详细的提示,Sora能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。“该模型不仅了解用户在提示中提出的要求,还了解这些东西在物理世界中的存在方式。”
不过,索拉并不完美。在考古学家挖掘的一个分享的例子中,一把塑料椅子突然出现,然后继续在周围盘旋。在另一个例子中,小狼互相嬉戏、追逐,一只小狼似乎在向另一只小狼跑去,两只小狼似乎融为一体。根据OpenAI的说法,Sora可能“难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系的具体实例。例如,一个人可能咬了一口饼干,但之后饼干可能没有咬痕。”
然而,它显示了我们在短短一年内取得的进步,从令人难忘的“威尔·史密斯吃意大利面”视频到Sora现在可以做的事情。如果你还没有看过后者,请看下面,尽管你可能无法将这个图像从你的脑海中抹去。
还值得注意的是,在通过其产品向用户提供该工具之前,OpenAI正在与红队成员(试图发现并报告漏洞和潜在滥用的专家)合作,以测试该模型。此外,它还在开发工具来检测视频是否由Sora生成。
目前尚不清楚Sora何时可供OpenAI用户使用。