快速发展的AI技术能够自动创建虚假的视频和音频。通过社交媒体传播这些有意制造出的虚假信息,可能会对公共话语和政治稳定产生深远影响。计算机科学家正在开发人工智能检测工具来标记虚假视频,但与生成这些虚假内容的能力相比,科学家远远落后。当虚假视频的病毒式传播侵蚀我们对媒体的信任,我们该相信什么?
今年4月,美国前总统奥巴马的一个视频出现在了互联网上。该视频看起来和他之前的演讲很像。他穿着清爽的白衬衫和深色西装,领子上别着一个国旗胸针。背景中有美国国旗和总统旗帜。视频中,奥巴马面对镜头,伸出双手强调自己的话:“特朗普总统是一个完完全全的蠢货。”
视频中的奥巴马没有一丝笑容,他接着说:“要知道,我永远不会说出这样的话,至少在公共场合不会。但别人会的。”视频镜头转到分屏,屏幕上是演员乔丹·皮尔(Jordan Peele)。其实奥巴马什么都没说,这段视频是奥巴马真实演讲视频与皮尔的模仿视频混合而成的。
在现在这个充斥着虚假新闻的时代,这段视频实际上是由BuzzFeed News制作的公益广告,它展示了新型人工智能(AI)技术的一种应用,把该技术用在音频和视频上,就像把Photoshop软件用在数字图像上一样:能让人们操纵现实。
这样做出的视频还相当粗糙。不过,这种原本为好莱坞电影编辑和视频游戏制造商开发的技术进步很快,已经引起了一些国家安全专家和媒体学者的担忧。下一代的工具有可能无中生有地炮制出足以乱真的虚假内容,不用歪曲现有视频(如奥巴马的演讲视频),而是编造根本从未发生过的情景。
无害的开端
伪造视频的历史可以追溯到上世纪60年代,当时用计算机生成的图像首次诞生。上世纪80年代,这些特效逐步成为主流。从此以后,电影爱好者见证了这种技术的进化。南加利福尼亚大学计算机科学助理教授、从事增强现实业务的创业公司Pinscreen的首席执行官黎颢表示,这种技术的目标一直是“打造一个任何故事都可以呈现的数字世界。我们怎样才能创造出看上去无限真实,但实际上一切都是虚拟的东西?”
一开始,大多数数字图像都是艺术家创作的,他们使用计算机创建三维模型,然后手工绘制纹理和其他细节,这是一个不可扩展的繁琐过程。大约20年前,一些计算机视觉研究人员开始从不同的角度思考这个问题:“与其在个别模型上花费时间,为什么不教计算机根据数据创建图形呢?” 1997年,位于加利福尼亚州帕洛阿尔托的Interval研究公司的科学家开发了Video Rewrite,这个软件可以切割现有视频,并重新配置。不久之后,德国马普生物控制研究所的科学家从200个人脸三维扫描图像的数据集中提取特征,教会了计算机生成新面孔。
随着深度学习这种人工智能技术的进步,计算机视觉、数据和自动化之间的关系在2012年迎来了近期最大的一次飞跃。与20世纪90年代后期使用静态数据、无法改进结果的技术不同,深度学习能够适应新数据,且可不断改进。德国马普科学史研究所的博士后研究员李晓畅说,这项技术可以将目标(比如一张脸)简化为数据。
深度学习使用了许多层名为神经网络的简单数学模型,随着时间的推移,它的效果会变得越来越好。比如,计算机科学家可以教会深度学习工具识别人脸,方法就是给它看成百上千张照片,并告诉它每张照片是不是人的面孔。最终,当工具遇到一张没见过的人脸时,也可以识别出构成人类特征的模式,并且可以得出结论:在统计学上讲,这也是一张脸。
接下来,使用名为生成网络的深度学习工具,研究者有能力创造出看起来如同真人的面孔。其中的逻辑与刚才类似:计算机科学家还是用成百上千幅图像训练网络。但这一次,网络会按照从示例中学习到的模式,绘制出一张新的面孔。一些公司现在正使用同样的方法来处理音频。今年早些时候,谷歌推出了Duplex,这是一款基于WaveNet软件的人工智能助理,它可以打电话,听起来就像真人一样,甚至对语气词的运用都完全一样,比如“呃”和“嗯”。
但是生成网络需要大数据集来训练,这可能需要大量的人力。改进虚拟内容的下一步是教AI实现自我训练。2014年,蒙特利尔大学的研究者通过生成对抗网络(generative adversarial network, GAN)实现了这一目标,这种技术让两个神经网络对话。第一个是生成器,它制作虚假的图像,第二个是判别器,负责学习区分真假。在几乎没有人类监督的情况下,该网络通过竞争相互训练:判别器推动生成器制造出越来越逼真的虚假图像,而生成器一直试图骗过判别器。GAN可以制作各种各样的东西。在加利福尼亚大学伯克利分校,科学家构建了一个可以将马的图像变成斑马的GAN网络,也能将莫奈(Monet)等人的印象派画作变成清晰、逼真的场景。
接着,在今年5月,德国马普信息学研究所的研究人员发布了“深度视频”(deep video)。这个系统使用了一种生成对抗网络,它可以让演员控制现成影片中他人嘴巴、眼睛和面部的动作。深度视频目前仅适用于人物特写镜头,这类镜头中人要直接看着摄像机。如果演员的动作幅度太大,所得到的视频就会出现明显的破绽,比如脸部周围的像素模糊等。
到目前为止,GAN还没有能力在视频中创造出可以乱真的复杂场景。有时GAN会产生奇怪的错误,比如让人的眼球从前额长出来。不过今年2月,英伟达公司的研究人员找到了一种方法,可以让GAN生成令人难以置信的高分辨率面部图像。他们一开始先用相对较小的照片进行训练,然后逐步增加训练图像的分辨率。南加利福尼亚大学的黎颢团队使用GAN制作出了逼真的皮肤、牙齿和嘴巴,这些都是在数字化重建中尤为难以处理的部位。
对非专业人士来说,这些技术都很难运用。但BuzzFeed的实验暗示了我们可能的未来。它发布的那段视频来自名为FakeApp的免费软件,该软件使用深度学习,而不是GAN。由此产生的视频被称为“Deepfake”,即“深度学习”和“虚假”的混合词。现在这个技术已经普及化,任何拥有计算机的人都能够使用。
假新闻泛滥?
专家们一直担心计算机辅助编辑会对现实造成破坏。早在2000年,《麻省理工技术评论》中关于Video Rewrite等产品的一篇文章就警告称,“眼见不再为实”,“晚间新闻中的图像可能是假的,是高速的新视频处理技术做出来的。”18年后的今天,新闻节目中似乎并没有充斥着虚假视频。首先,要伪造一段高质量的视频仍然很困难。在专业视频编辑的帮助下,BuzzFeed花了56个小时才做出虚假的奥巴马视频片段。
然而,我们消费信息的方式已经发生了变化。据皮尤研究中心的数据显示,今天只有大约一半的美国成年人通过电视看新闻,而三分之二的人至少会通过社交媒体获取一部分新闻。互联网让迎合细分观众群体的媒体繁荣起来,这些媒体不受传统新闻标准的束缚。珀西利表示,互联网有利于那些病毒式传播的内容,让我们能够以前所未有的速度分享它们。与客厅的电视屏幕相比,虚假视频中的瑕疵在移动设备屏幕上更难辨别。
关于假新闻的科学研究还很有限。不过一些研究表明,人们只要看过一次虚假信息,以后再看到它时,就会觉得可信,加拿大里贾纳大学组织行为学助理教授戈登·彭尼库克(Gordon Pennycook)说。他表示,目前尚不清楚这是为什么,但可能要归功于假新闻的 “流利度”(fluency),或者说“处理这类信息的便利度”。
麻省理工学院有一项研究在推特上追踪了2006年至2017年的12.6万条新闻,结果显示,我们同样更有可能分享虚假新闻,而不是真实新闻。尤其是虚假的政治新闻,这类内容比那些有关金钱、自然灾害或恐怖袭击的文章传播得更广、更快。该研究表明人们渴望新奇的内容。假新闻一般会巧妙利用我们的情绪和个人身份,诱使我们在有机会消化处理信息,决定其是否值得传播之前做出反应。这类内容越是让我们惊讶、恐慌或愤怒,我们就越倾向于将其分享出去。
有许多令人不安的线索表明,视频在引发恐惧上可能特别有效。布朗大学认知、语言和心理学助理教授埃莉诺·阿米特(Elinor Amit)说:“当你通过视觉处理信息时,你会认为这件事在空间、时间或社会群体方面与你更接近。”她的研究分析了我们对文本和图像信息的不同反应。阿米特推测这种区别是源于演化的,我们的视觉是在书面语言诞生之前演化形成的,我们更多依靠自己的感觉来发现直接的危险。
所有这些令人担忧的事件,还只是问题的一部分。对社会来说,我们设想的情况实际上可能比视频本身更糟糕。比如,一些人在自己真正的错误被抓住时,可能会宣称这些视频是伪造的,故意把水搅浑。路易斯安娜州立大学大众传播学副教授雷蒙德·J·平格里(Raymond J。 Pingree)表示,当知道可以乱真的虚假视频可能存在时,我们会丧失对所有媒体的信任。平格里研究人们对自身分辨真假能力的自信心,以及这种自信对其参与政治活动的意愿有何影响。他说,当人们失去这种信心时,就会更容易轻信骗子和谎言,而且“这会让他们不再想去寻求真相。”
猫鼠游戏
对于计算机科学家来说,要解决一个bug通常要靠更完善的计算机科学。虽然本文中讨论的bug要比编码错误复杂得多,但计算机科学界还是认为可以编写算法来标记虚假视频。
到目前为止,有两类方案。第一种是通过嵌入数字签名证明视频是真实的,类似于复杂的水印、全息图,以及其他印钞厂用于防伪的方法。每个数码相机都有一个独特的签名,从理论上讲,这种签名很难复制。
第二种策略是使用探测器自动标记假视频。可以说,这种探测器最重要的研发动力来自美国国防部高级研究计划局(DARPA)的一项名为Media Forensics(MediFor)的项目。MediFor采用了三种应用广泛的方法,这些方法可以通过深度学习实现自动化。第一是检查视频的数字指纹,看看有无异常情况。第二是确保视频内容遵循物理定律,比如视频中的阳光照射情况是否与现实世界相符。第三是检查外部数据,比如拍摄当天的天气情况。 DARPA计划将这些探测方法统一到一个工具中,为视频评分,估算它有多大的可能是伪造的。
这些策略可以减少虚假视频的数量,但说到底仍然是一个猫捉老鼠的游戏,视频伪造者会模仿数字水印或建立深度学习工具来欺骗探测器。“我们不会赢得这场比赛,”阿列克谢·埃弗罗斯(Alexei Efros)说,他是加利福尼亚大学伯克利分校计算机科学和电子工程教授,正在于MediFor项目合作,“我们只是会让坏人在比赛中越来越艰难。”
拯救现实
即使我们每个人最终都可以使用探测器来分析互联网,但真相总会滞后于谎言。所以,如何阻止足以乱真的虚假视频的传播,对社交媒体行业来说是一个挑战。
我们还不清楚,在遏制病毒性传播的虚假信息方面,社交媒体企业有哪些法律上的义务,我们也不知道是否可以在不践踏言论自由的前提下对该行业进行监管。Facebook首席执行官马克·扎克伯格(Mark Zuckerberg)最终承认,Facebook在传播虚假新闻方面发挥了作用。
从那以后,扎克伯格承诺要采取行动。他让Facebook用户承担部分责任,对新闻来源的可靠性进行排名(一些人认为这是在推卸责任),然后利用AI来标记错误信息。Facebook一直对这套方法的细节守口如瓶。一些计算机科学家对其中AI参与的部分持怀疑态度,其中包括法里德,他表示这些承诺“非常天真”。很少有独立的科学家能够研究Facebook上的假新闻是如何传播的,因为大部分数据都是不对外公开的。
还有,如果开发虚假视频技术的研究者在离开实验室后,不关心自己的技术是被如何使用的,不去对抗滥用,那么世界上所有算法和数据都无法从虚假消息的海洋中拯救我们。“这是我的请求,”斯坦福大学法学教授纳特·珀西利(Nate Persily)说,“从事这项研究的科学家必须与心理学家、政治学家和传媒专家合作,后者已经研究这些问题有一段时间了。”而目前这种合作仍很少见。
由于这还是一个责任真空地带,根除虚假视频的任务就落在了记者和网民侦探身上。在奥巴马和皮尔的Deepfake虚假视频结束时,视频中的两人都表示:“未来,我们需要对互联网保持警惕。在这个时代,我们需要依赖可靠的新闻来源。”这个视频可能是虚假的,但最后这句话说得一点不错。