今年2月,OpenAI发布了由其生成人工智能程序Sora创建的视频。通过简单的文本提示生成的极其逼真的内容,是企业展示人工智能技术能力的最新突破。它还引发了人们对生成式人工智能大规模创建误导性和欺骗性内容的潜力的担忧。
根据德雷克塞尔大学的最新研究,当前检测被操纵数字媒体的方法无法有效对抗人工智能生成的视频;但机器学习方法可能是揭开这些合成作品面纱的关键。
在6月IEEE计算机视觉和模式识别会议上接受发表的一篇论文中,德雷塞尔工程学院多媒体和信息安全实验室的研究人员解释说,虽然现有的合成图像检测技术迄今为止未能识别人工智能生成的视频,但它们已经在机器学习算法方面取得了成功,该算法可以经过训练来提取和识别许多不同视频生成器的数字“指纹”,例如稳定视频扩散、Video-Crafter和Cog-Video。
此外,他们还表明,在研究了他们的视频的几个示例后,该算法可以学会检测新的人工智能生成器。
德雷克塞尔工程学院副教授兼该项目主任MatthewStamm博士表示:“在没有一个良好的系统来检测不良行为者制造的假货之前,这种视频技术就已经发布,这真是令人不安。”米斯尔。
“负责任的公司会尽最大努力嵌入标识符和水印,但一旦该技术公开可用,想要利用它进行欺骗的人就会找到办法。这就是为什么我们正在努力通过开发该技术来保持领先地位从媒体特有的模式和特征中识别合成视频。”
深假侦探
十多年来,斯塔姆的实验室一直积极致力于标记经过数字处理的图像和视频,但该小组去年特别忙碌,因为编辑技术被用来传播政治错误信息。
直到最近,这些操作一直是添加、删除或移动像素的照片和视频编辑程序的产物。或减慢、加速或剪掉视频帧。每一次编辑都会留下独特的数字痕迹痕迹,斯塔姆的实验室开发了一套经过校准的工具来查找和跟踪它们。
该实验室的工具使用一种复杂的机器学习程序,称为约束神经网络。该算法可以以类似于人脑的方式学习图像和视频的子像素级别的“正常”和“异常”,而不是从一开始就搜索特定的预定操纵标识符。这使得该程序擅长识别已知来源的深度伪造品,以及发现由以前未知的程序创建的深度伪造品。
神经网络通常会接受数百或数千个示例的训练,以便很好地感受到未经编辑的媒体与已被操纵的内容之间的差异-这可以是从相邻像素之间的变化到帧中帧间距的顺序的任何内容。视频,文件本身的大小和压缩。
新的挑战
“当你制作图像时,相机中的物理和算法处理会引入各种像素值之间的关系,这些像素值与Photoshop或人工智能生成图像时的像素值非常不同,”斯塔姆说。
“但最近我们看到文本到视频生成器,比如Sora,可以制作一些非常令人印象深刻的视频。这些带来了全新的挑战,因为它们不是由相机制作或经过Photoshop处理的。”
去年,一则支持佛罗里达州州长罗恩·德桑蒂斯的竞选广告似乎显示前总统唐纳德·特朗普拥抱并亲吻安东尼·福奇,他是第一个使用生成人工智能技术的人。这意味着该视频不是由其他人编辑或拼接的,而是由人工智能程序完整创建的。
斯塔姆指出,如果没有编辑,那么标准线索就不存在——这给检测带来了一个独特的问题。
斯塔姆说:“到目前为止,法医检测程序只需将编辑后的视频视为一系列图像并应用相同的检测过程,就可以有效地对抗这些视频。”
“但是对于人工智能生成的视频,没有证据表明图像是逐帧操纵的,因此,为了使检测程序有效,它需要能够识别生成式人工智能程序构建其图像的方式留下的新痕迹。视频。”
在这项研究中,该团队测试了11个公开的合成图像探测器。这些程序在识别经过处理的图像方面都非常有效,准确率至少为90%。但当面对由公开可用的AI生成器、Luma、VideoCrafter-v1、CogVideo和StableDiffusionVideo创建的敏锐视频时,他们的性能下降了20-30%。
他们写道:“这些结果清楚地表明,合成图像检测器在检测合成视频时遇到很大困难。”“这一发现在多种不同的检测器架构中以及当检测器由其他人预训练或使用我们的数据集重新训练时保持一致。”
值得信赖的方法
该团队推测,基于卷积神经网络的检测器(如MISLnet算法)可能会成功地对抗合成视频,因为该程序的设计目的是在遇到新示例时不断改变其学习方式。通过这样做,可以识别新的法医痕迹的演变。在过去的几年里,该团队展示了MISLnet在发现使用新的编辑程序(包括AI工具)操纵的图像方面的敏锐度,因此针对合成视频对其进行测试是自然而然的一步。
该论文的合著者、MISL博士生TaiD.Nguyen表示:“我们使用CNN算法来检测经过篡改的图像以及视频和音频深度伪造,并取得了可靠的成功。”“由于它们能够适应少量新信息,我们认为它们也可以成为识别人工智能生成的合成视频的有效解决方案。”
为了进行测试,该小组使用用于训练图像检测器的相同测试数据集训练了包括MISLnet在内的8个CNN检测器,其中包括由四个公开程序生成的真实视频和AI生成的视频。然后,他们针对一组视频测试了该程序,其中包括一些由尚未公开的生成式AI程序创建的视频:Sora、Pika和VideoCrafter-v2。
通过分析每个视频中单个帧的一小部分(补丁),CNN检测器能够在粒度级别上了解合成视频的外观,并将这些知识应用于新的视频集。每个程序在识别合成视频方面的效率都超过93%,其中MISLnet表现最好,为98.3%。
这些程序在对整个视频进行分析时稍微有效一些,方法是从视频的各个帧中随机抽取几十个补丁,并将它们用作迷你训练集来学习新视频的特征。使用一组80个补丁,程序的准确率在95-98%之间。
经过一些额外的训练,这些程序在识别用于创建视频的程序方面的准确率也超过90%,团队认为这是因为每个程序用来制作视频的独特的专有方法。
研究人员写道:“视频是使用多种策略和生成器架构生成的。”“由于每种技术都会留下重要的痕迹,这使得网络更容易准确地区分每个生成器。”
快速学习
虽然这些程序在面临检测全新发生器的挑战时遇到了困难,而之前至少没有接触过它的少量视频,但通过少量的微调,MISLnet可以快速学会以98%的准确率进行识别。这种被称为“少样本学习”的策略是一项重要功能,因为每天都在创造新的人工智能技术,因此检测程序必须足够敏捷,以适应最少的培训。
“我们已经看到人工智能生成的视频被用来制造错误信息,”斯塔姆说。“随着这些程序变得越来越普遍且更易于使用,我们可以合理地预期会被合成视频淹没。虽然检测程序不应该是抵御错误信息的唯一防线——信息素养工作是关键——拥有验证的技术能力数字媒体的真实性无疑是重要的一步。”