小心打开“AI深度合成”魔法盒第3版:数码 2020年07月15日中国消费者报

图二：客服机器人。
图三、图四：AI深度合成的人脸。
图五：搜狗虚拟主播妮雅。

图六：腾讯AI数字人小航。
图七：利用AI换脸技术演绎剧情。
图八：虚拟讲解员。
■本报记者武晓莉
　　童话里有一种神奇的魔法盒，它可以变出你想要的任何一件物品。基于人工智能技术（AI）的虚拟深度合成技术，正在将童话里的幻想变为现实：跟你通电话的可能是机器客服；播报新闻的可能是虚拟的数字人；你的脸可以换到任何一个电影场景中；家里的智能屏可以跟你聊天；数字人可以出演电影中的危险镜头……
　　然而，数字的魔法盒里也藏着危险。玩一下虚拟换脸游戏就有可能被盗刷支付宝，模拟一次你的声音就可能骗走巨额款项……
　　在此前举行的“深度合成技术应用与治理研讨会”上，有专家指出，《民法典》的人格权编为深度合成技术应用提出了公民权益保护的具体要求，扩展了肖像权方面的规定，提出了对声音的保护。开放性的人格权可以更好地应对科技催生的新型人格权益保护，但立法不会阻碍技术的发展应用。与会专家们认为，对AI深度合成，应该持包容的态度，应审慎地打开新技术的魔法盒子。
魔法盒子刚刚打开
　　“快捷指令随机生成的无版权虚拟人，居然有亚洲人了。”北京的设计师宋志文在朋友圈发了一组图片，这是某网站上随机生成的非常逼真的人脸。但这些栩栩如生的“人”，在现实中其实是不存在的，只是人脸合成技术的产品而已。“这个魔法盒才刚刚被打开。”腾讯优图实验室研究员、总监李季檩介绍说，深度合成背后的技术包括自动编码器和生成对抗网络，典型的深度合成是输入一个随机向量，生成器据此合成出一张图像，与一张真实的图像一起输入鉴别器进行差异计算，通过训练最终达到一个均衡状态。此时就能合成足够逼真的图像，让鉴别器难以区分其和真实图像之间的差异。
　　很多人都能感觉到，基于AI的深度合成技术正被广泛应用于社交、影视、医疗、虚拟现实等诸多领域。深度学习、神经网络等人工智能技术降低了AI深度合成的制作门槛，激发了新形式的创造。
　　“目前，深度合成主要有四种形式。”腾讯研究院秘书长张钦坤指出，一是最为人们熟知的人脸替换，即将图像或视频中的人脸替换为另一个人的脸，俗称AI换脸；二是人脸再现，通过对目标人物的脸部特征进行修改，从而改变其面部表情，这种方式可以让目标人物表达他们在现实当中没有说过的话或者做没有做过的事；三是目前应用广泛的语音合成，通过创建特定的声音模型，把文字转化成逼真的人声，一些语音播报类应用中的名人语音播报，就是这种技术的一种应用；四是人脸合成，通过深度合成技术生成虚拟的、现实中完全不存在的人脸，这也是生成对抗网络的典型应用。
　　以AI换脸为例，消费者还在尝鲜，深度合成的商业化应用尚在探索中。“AI换脸APP引发了一定的行业热度，但体验相对单一，未来还需要跟更多落地的商业应用结合才能持续发展。”艾瑞咨询泛娱乐研究主任郭成杰说。在文娱和社交领域，基于深度合成技术的换脸APP因其独特的功能，一度风靡。但由于功能限制，用户体验单调，目前还没有找到能够盈利的完整商业模式。在实现商业落地的探索中，还需要尝试开发更多的功能，同时解决目前存在的法律风险问题，形成完整的商业模式。
　　郭成杰认为，深度合成可以与影视行业更多地结合。一是可以大幅降低合成影像的技术门槛，实现低成本特效；二是利用AI换脸技术，可以解决由于演员身故、生病或丑闻等因素，而使得影视作品不能继续拍摄的问题。虽然国内一些影视剧也在尝试AI换脸，但对影视所要求的高品质而言，换脸的效果还有待提升。
魔法盒子也有风险
　　在国外，有人利用英国某能源公司在德国母公司CEO的声音，通过电话诈骗骗走了20多万欧元。
　　李季檩说，合成的效果越来越难分辨真假。一幅真实图像是由光线、距离、姿态、形状、材质、观察者的视角、光学传感器的特性等大量真实的物理因素共同作用的结果，传统的数字合成会不可避免地出现一些瑕疵，一般只能以大块的区域为单位进行合成或者编辑，很难对单个像素进行精确的合成和修改。而深度合成是基于深度网络和大量数据，在训练过程中，上述大量物理因素会蕴含在深度网络的参数之中，算法可以同时考虑这些因素的影响，精确地进行单个像素的合成。即使局部出现了瑕疵，算法在训练过程中也可以不断优化和修补，直至达到逼真的程度。
　　张钦坤认为，深度合成技术从出现之初就存在法律、道德等方方面面的风险。不法分子会通过深度合成技术，伪造虚假的或是真假难辨的图片、音视频等来进行非法活动，包括政治干扰、色情报复、商业诋毁、假冒身份诈骗、非法获取个人信息等。
　　色情性的深度合成视频，是深度合成技术滥用的重灾区。腾讯研究院、腾讯优图实验室发布的《AI生成内容发展报告2020——“深度合成”商业化元年》（以下简称《报告》）显示，2019年12月，全网共有14678个深度合成视频，其中96%属于色情性的深度合成视频，主要存在于色情网站。
监管应当包容审慎
　　作为一种极富创造力和突破性的技术，AI深度合成虽然也催生了一系列必须面对的难题，但并不会磨灭其给消费者带来的全新的视听享受和给社会带来的进步。中国人民大学未来法治研究院执行院长张吉豫认为，应遵循包容审慎的监管基本原则，更好地规范深度合成技术应用。具体法律和监管应设置必要的法律底线，并为深度合成技术发展留出空间。
　　张吉豫指出，现有的立法为深度合成技术设置了一些必要的法律底线，规定了适当的平台责任，同时推动法律和技术的结合。例如，《民法典》的人格权编为深度合成技术应用提出了公民权益保护的具体要求，扩展了肖像权方面的规定，并提出了对声音的保护。这说明新的科技会催生新的权利要求，而人格权编规定的开放性的人格权可以更好地应对科技催生的新型人格利益保护，但立法不会阻碍技术发展应用。在平台责任方面，《民法典》的“通知-必要措施”规则也蕴含了对网络服务提供者进行分层、分类的责任分配的基本原则。此外，《网络信息内容生态治理规定》中提到不得利用深度合成等技术从事法律禁止的活动，在强调底线的同时，也表示了允许和鼓励深度合成等新技术发展的态度。该规定还要求对非真实的音视频信息进行标识，这表明需要结合技术进行一定的治理，充分发挥掌握技术的平台企业的主观能动性，实现共建、共治、共享的治理理念。
　　张吉豫表示，对深度合成等互联网新技术的治理和未来法治建设，首先需要以人为本，这也充分体现在《民法典》人格权编相应的规则中，尤其是对人格权的法定性和开放性的平衡；智能社会的治理需要法治与技术治理的有机统一、协调结合；需要建立信用机制。比如深度合成技术可能存在不合理的使用，因此认证溯源机制可能是保证未来发展的重要路径。
　　腾讯研究院高级研究员曹建峰指出，深度合成和其他人工智能技术的治理需要权衡、兼顾四个目标：数字技术和数字市场的发展与创新；消费者权益保护尤其是个人数据和隐私保护；商业利益；公共利益和国家利益。
积极探索立法实践
　　世界各国都在积极探索AI深度合成技术的立法实践。《报告》对国外的一些立法举措进行了梳理，主要有五个方面的措施：一是要求深度合成和人工智能技术的使用不得误导大众，例如当AI机器人以商业或政治目的与人交流或互动时，必须披露其人工智能身份；二是为深度合成的应用划定红线，不能将深度合成技术应用于政治干扰、淫秽色情、假冒身份等非法行为和活动；三是要求深度合成的内容制作者承担披露的义务，采取嵌入数字水印、文字、语音标识等方式披露、标记合成信息后，才可将深度合成内容放置于网络上传播；四是呼吁研究开发包括深度合成在内的图像、音视频操纵技术的检测识别和反制技术；五是从隐私和个人信息保护的角度规范深度合成技术，遵守相关要求，例如GDPR将可以适用于那些可能被用于制作深度合成内容的公民图片和声音，或是网络平台发布的换脸软件产品中潜在的个人隐私泄露问题。
　　据张钦坤介绍，我国正在积极回应深度合成技术带来的问题。2019年5月发布的《数据安全管理办法（征求意见稿）》要求对自动合成的新闻、博文、帖子、评论等信息都要标明“合成”字样；同年11月，由国家网信办、文旅部、国家广电总局出台的《网络音视频信息服务管理规定》也明确要求开展安全评估，对于非真实的音视频信息进行标识，禁止基于深度学习的虚假新闻信息，同时要求平台部署鉴别技术，建立辟谣机制；同年12月，国家网信办发布的《网络信息内容生态治理规定》也明确，禁止利用深度学习技术从事法律、行政法规禁止的活动；前不久颁布的《民法典》人格权编的有关规定，意味着未来在数字人、语音合成等相关应用上，使用明星的肖像和声音需要先获得授权。这些规定能够有效防范深度合成技术的滥用风险，并给受害人提供必要的救济。
用技术来约束“魔力”
　　提起AI深度合成，大部分人首先想到的都是AI换脸。其实，AI换脸只是最早进入公众视野，目前应用较多而已。除此之外，深度合成技术还包括人脸再现、人脸生成、语音合成等技术，并朝着全身合成、数字虚拟人等方向发展。
　　根据《报告》梳理，人脸再现涉及对目标人物的脸部表情进行驱动；人脸合成涉及创建媲美真实人脸的全新人脸图像；语音合成涉及创建特定的声音模型，可以将文字转化成接近真人语调和节奏的声音。同时，深度合成正从局部合成转向全身合成，从二维合成转向3D合成。前者如对目标人物的全身动作进行操控，后者则以数字虚拟人技术为代表。
　　AI深度合成令人不安的原因，还在于不少人认为任何人都可以制作高质量、高仿真的深度合成内容。《报告》指出，这是不可能的。AI深度合成内容的制作门槛虽然已大为降低，普通用户在智能手机、电脑等终端设备上，借助深度合成应用程序，即可轻易制作、获取AI换脸、人脸合成、语音合成等娱乐性的深度合成内容，但这类合成内容往往较为容易辨别，且存在来源标记，不至于以假乱真。因此，就目前而言，虽然像FakeApp、ZAO等APP让更多的人接触到了深度合成技术，但高质量、高仿真的深度合成内容仍然难以创建，需要掌握专业技能和专业工具的专业人员的大量投入。
　　还有一种误解认为，深度合成内容无法通过技术工具鉴别，只能通过生物特征测试（例如“眨眼测试”）。
　　实际上，眨眼测试等根据生物特征进行鉴别的方式，是非常低效、不可靠的，只能阶段性地起作用。《报告》指出，随着深度合成技术的发展进化，生物特征测试将越来越难以发挥作用。相反，AI深度合成内容的检测识别，需要基于AI的鉴别技术来实现对深度合成内容的自动化检测。目前，业界已在大量投入和支持鉴别技术的开发。优图实验室的人脸合成检测平台——FaceIn人脸防伪，就支持对多种换脸方法进行检测，达到了很高的准确率。
　　“要用技术的发展解决技术的问题。”李季檩认为，既然AI深度合成是深度学习的产物，那么也可以通过深度学习技术进行识别，针对特定场景定制特殊的防御手段。在日常的技术演练中，优图已经有比较切身的体会和丰富的经验。虽然有些深度合成的视频可以骗过我们的眼睛，但是在极度精细的像素层面，和相机拍摄的真实图像还是有所不同。真实世界的光线从镜头进入到传感器，经过光电转换、模拟信号转换数字信号再进行若干图像处理，才得到最终的照片，这其中包含了光学、电路、温度等各种真实因素引起的噪音和退化，目前生成对抗网络还不能精确合成这些信息。因此，可以通过制作大量的深度合成数据，用深度网络来学习真实视频和合成视频的差异。实验室的检测能力也会通过云计算的方式对外输出，用户上传视频时就可以判断它是不是合成的。因此，深度合成并不可怕，既然其魔力来自于深度学习，那可以约束这种魔力的也是深度学习。
　　此外，互联网行业对深度合成内容也并未呈放任状态。《报告》指出，主流网络平台已经着手采取自律措施应对深度合成技术的潜在滥用。国外主流科技公司开发的甄别AI合成内容、对抗深度合成技术滥用的工具，可扫描用户浏览的图像、视频或其他数字媒介，标记并报告可疑的伪造内容，检测经窜改的人工合成内容；降低合成内容的权重，让算法不再为用户推荐被认定为深度合成并可能造成负面影响的内容。
　　这些科技公司积极构建深度合成数据集，并开放给研究人员免费使用，以此来促进检测技术的研究与开发。同时，各平台之间还携手开展深度合成检测挑战赛，为检测技术的开发提供资金和深度合成数据集，以促进更多检测识别技术的开发。在国内，腾讯信息安全团队自主研发的GFN网络算法鉴别AI换脸、腾讯优图实验室研发的人脸合成检测技术，对相关深度合成内容的检测都达到了很高的准确率。
深度合成造福社会
　　大家熟悉的著名科学家霍金，晚年只能用一个发声器与外界交流。对于更多失声的“渐冻人”来说，他们将可以用“自己的声音”而非机器的声音“说话”——深度合成技术的发展，已经能够做出以自己的声音发声的发声器了。
　　《报告》指出，AI虚拟主播、数字试穿、电影后期、社交产品中的人脸融合、合成人脸和合成虚拟形象用于在线营销、合成声音用于失声患者发声以及数字虚拟人等，随着创新性的应用持续涌现，深度合成技术的社会福祉日益彰显。
　　“就深度合成的发展趋势来讲，特别是从互联网行业的应用来看，数字人是一个重要的发展方向。”张钦坤说，数字人是多个人工智能技术的集大成者，它需要综合运用各种AI技术和方法，如计算机视觉、视频合成、语音合成、自然语言处理等。目前，“数字人”已经成为 AI领域的新风口，国内外的主流互联网公司都在加强布局，未来这个技术会应用在非常广泛的领域。例如，腾讯AI实验室已将数字人列为两大攻坚方向之一，基于深度神经网络的3D人脸和人体重建、文本/语音/口型驱动和神经网络渲染等技术，使所生成的数字人看起来真实自然。深度合成在多个领域落地应用，同时发挥出科技向善的潜力。
　　据了解，目前，国内外互联网公司纷纷试水数字虚拟人技术，例如，2018年腾讯携手Epic等企业启动“Siren”虚拟人项目，2019年腾讯AILab正式发布首个电竞虚拟人“T.E.G”（天鹅静），整合3D人脸和人体重建、文本/语音/口型驱动和神经网络渲染等技术，特别是利用生成对抗网络完成人体动作的迁移。随着5G时代的到来，这种捕捉和渲染将会更加灵敏生动，数字虚拟人在游戏、社交、影视、医疗等领域将大有可为。
　　李季檩认为，从应用上看，深度合成技术将与各种多维信息、视频信息融合，可以实现合成之后与人类进行互动，这些发展应用在数字虚拟人、VR内容等产业上，可能会取得一些重大的突破。
　　郭成杰也认为数字虚拟人是值得关注的方向，具有非常大的延展性。目前，该技术正在应用到更多领域，如虚拟主持、虚拟主播等。数字虚拟人在与智能家居、IoT结合，让用户与智能家居的交互更加自然真实，提升了智能家居服务的体验。在教育、旅游、公共场所咨询等需要较多重复性人力接待、播报或者讲解的场合，都是数字虚拟人大有可为的场景。未来，随着深度合成技术的发展，行业可以更好地结合现有的商业模式和服务模式，利用深度合成技术提升服务体验。