对话清华大学人工智能研究院朱军：火爆的AI大模型，暗藏哪些安全风险？

腾讯网 2023-08-10 08:25:57

本期对话清华大学人工智能研究院副院长、清华智能技术与系统国家重点实验室主任，北京智源人工智能研究院首席科学家朱军，解读人工智能安全问题。

文 / 腾讯科技李海丹

(资料图)

人类创造了AI，但AI也在重塑我们身处的世界。随着大语言模型技术的爆发，AI开始进一步深度融入我们的生活，人类需要在其发展的早期阶段就考虑和实施必要的安全措施，以避免潜在的风险。

AI遇到的网络安全问题随处可见。腾讯科技在专访清华大学人工智能研究院副院长，北京智源人工智能研究院和瑞莱智慧首席科学家朱军时，他谈到“ 其实世界上没有永远安全和不可被攻破的网络系统。如果不计代价的话，不法分子会用各种方式来攻击系统，防不胜防。”

10多年来，朱军致力于解决人工智能安全性问题，他突破了经典的贝叶斯基础理论和关键技术，提出扩散模型的高效算法，通过成果转化孵化国家级专精特新“小巨人”企业，为安全可靠的人工智能发展奠定坚实基础。

AI自身存在风险也不容忽视。人工智能被赋予了强大的学习和推断能力，但这一能力也导致了AI系统对数据的高度依赖，从而可能在其决策和推荐中体现出数据源的偏向性，这些也引发了人们对AI的一系列担忧，挑战着AI伦理与公正的平衡。

当AI陷入安全信任危机，我们应该如何应对？当AI与人类的交互应用越来越普及，我们应该如何防范安全隐患？本期对话中，朱军对提升AI的安全性和可靠性谈到了具体的防御方法。我们需要审慎地关注探讨AI安全对道德及社会影响，避免被引导进入一个未知的、不受控制的未来。

以下为文字精华版，在不改变愿意的前提下有删减调整：

01 没有永远安全的网络系统

腾讯科技：您一直在推动人工智能对抗安全领域方向的研究，目前的AI技术应用会带来哪些安全方面的问题？我们应该如何识别这些安全问题？

朱军：人工智能包含多个关键要素，例如数据、算法模型和应用层等。在每个要素中，我们都需要应对其中的各种安全问题。

在数据层面，我们需要关注数据投毒、数据泄露、用户隐私以及核心机密数据的保护等安全问题；在模型层面，需要应对对抗算法等安全问题。比如，当使用人脸识别进行解锁时，攻击者可能通过一副特制的对抗眼镜（即“对抗样本”）解开目标手机的验证系统，造成风险。此外，如果模型被恶意植入后门，模型的安全也同样会受到威胁；在应用层面，人工智能的安全问题也日益突出。例如深度合成、AIGC等工具被不法分子用于制作虚假内容，从事欺诈、诈骗等非法目的。这些都是人工智能在实际使用或开发中面临的安全问题。

对于解决和应对办法，我们需要使用更先进的算法来自动识别这些内容，这是当前人工智能领域的热点和难点问题。然而，这种技术就像“矛和盾”之间的关系一样，生成技术的发展将促进对应的检测和防御技术的出现。同时，生成和攻击侧的技术也在不断演化。由于技术本身的特性，没有一个系统是永远安全和不可能被攻破的。如果不计代价的话，不法分子会用各种方式来攻击系统，防不胜防。

因此，从技术方向来看，我们需要以“AI识别AI”的形式来应对。但相比攻击，防御其实更难。目前，我们寻找各种机制来提高模型的防御能力，在模型使用和部署时采取各种防护措施。例如，在人脸识别系统中，我们通过部署人脸识别防火墙，在样本进入最终的识别环节之前检测和过滤出有可疑或对抗攻击的样本，从而达到保护系统的目的。目前在银行等行业中已经落地此类技术。

腾讯科技：您提到了任何网络系统都是存在安全漏洞的，目前ChatGPT在海外应用掀起了热潮，它实现了很好的交互，这里会有怎样的风险？

朱军：目前ChatGPT等大语言模型正处于快速发展的过程中，但同时也带来了潜在的风险——比如会存在一些“注入式攻击”。从算法角度来看，如果有人别有用心的注入特定词语或符号，将可能诱导大模型逻辑混乱、输出错误。

在多轮对话系统中，如果要防御注入式的攻击是很难的。黑客可能会以各种方式去做注入攻击，并因大模型的语境理解技术，使得攻击效果延迟表现出来，这对于算法的检测与防御来说是新的挑战。对此，需要我们使用类似强化学习的方法来对算法进行反向推导，以检测并防御可能被恶意注入的词语。只有保证系统在训练过程中未被恶意注入，或未被植入后门以及其他漏洞，该系统才能被安心使用。

从应用层面来看，还可能会出现一些恶意使用对话系统的风险，比如黑客尝试绕过反注入防护措施生成低质量或不良内容，包括涉黄、涉暴等违法信息，这将成为后续流程中需要独立检测和解决的问题。腾讯科技：刚我们聊到了GPT的安全问题，再进一步看：GPT等大模型的服务器方面的安全防御能力是如何的，可能会被黑客攻击吗？

朱军：理论上是完全可能的。因为它是一个大的信息系统，任何系统都会存在漏洞，因此在系统建设过程中，我们需要尽可能提前部署各种防护手段去提升系统的安全性。最近也有看到相关案例：有攻击者用ChatGPT生成自动攻击的代码，让它更加高效的找到某个目标系统的漏洞，甚至可以进一步的去利用漏洞发起攻击，所以安全问题会持续存在。

02 人类无法准确地定义和衡量AI的智能水平

腾讯科技：除了黑客攻击的隐患，我们也在担心AI自身待来的安全风险问题。首先我们关注一个目前大家都在热衷探讨的话题——您认为AI会产生意识吗？

朱军：我个人的观点更倾向于认为当前人工智能的“意识”表现并不太明确，因为我们无法准确地定义和衡量意识。因此，观察语言模型的表现时，我们会发现大模型还是会出现事实性错误等问题。尽管有些错误内容读起来也很流畅，但仔细看的话，会发现它们其实不符合事实或逻辑。这是模型表现出的许多问题之一，即它所具有的意识的具体程度还没有被完全定量评价。

语言模型的学习能力很强，这是因为它们所了解的语料库和文本知识超出世界上任何一个人。例如，模型可能获得了几乎所有互联网上可以获得的信息，而相比之下，我们每个人只能获取有限的信息资源。

从通用性上来看，AI肯定比任何一个人强。然在某些方面，模型的表现却达不到人类的水平。因此，我们应该从现实的技术发展角度来看待一个模型，包括大家讨论的AGI等方面。个人认为，目前的技术水平还完全没有到达失控或仅由机器人自身控制进行演化的情况。

可以说，大规模机器学习模型能够使用深度学习等复杂的网络处理数据，且在构架和设计上借鉴了人类的某些认知。但从整体上来看，这些人工神经网络模型与真正生物系统存在巨大的区别，从规模到结构各方面都存在不同。所以，其实我们目前无法明确评测人工智能系统的智力水平，或者评估它是否拥有心智等认知能力。

腾讯科技：近期有商家推出“AI伴侣”的概念——人可以跟AI谈恋爱，并且还需要付费。您认为AI可以理解人类的情感吗？和虚拟伴侣人的交互过程当中，存在哪些安全风险？

朱军：情感计算一直是人工智能领域中的一个经典课题，在情感方面，人工智能技术可以模拟某个角色并设定其情绪或心理状态。然而，从技术角度来看，这个领域仍然存在许多问题和挑战。

想要达到人类真正的交流水平是很难的。比如即使我们人面对面聊天或使用相同的语言进行对话，也很难真正理解对方的情绪或心理活动，因为每个个体对相同输入的反应是千差万别的。现在我们采用的这些大模型，实质上是对这个过程进行建模，但所有的建模都需要简化和理想化的假设。这些假设是否适用于每个人，或者能否很好地符合每个个体的实际情况，这都存在疑问。我们很难用一个简单的模型来精准表达每个人的复杂情感。

这种模式可能涉及到社会问题、伦理道德等各个方面，有很多潜在的问题需要解决。虽然技术实现方面目前没有太多门槛，并且在国外早已出现这种模式。但是，我们需要深入思考这种模式会带来的影响——比如可能有年轻人因此更不愿意花精力去谈真正的恋爱或结婚等等，这些都可能对社会稳定造成潜在的问题。

另外我们需要关注：这样的人工智能产品会不会针对某些个体被有偏见或有目的性地进行引导，这将会带来很大的风险。如果我们每天都与一个机器人交互，那么获得的信息会很自然地被机器人引导，它可能会影响到个人的价值观，或者控制个人的情绪和行为等。长远看，这可能影响人与人之间的社会关系，引起整个社会行为的变化。但这些并不是完全靠技术就能解决的问题。总体上，相对于其他国家，我国在使用新技术时会更为谨慎，我们会提前预警可能的风险并采取一些预防措施。

03 塑造安全的AI：将最佳模型视为“导师”

腾讯科技：如果AI出现了错误，从技术层面，我们可以通过哪些工作来纠正大模型出现的错误问题？

朱军：由于训练数据和技术水平各不相同，比如我们用同一个问题询问不同的大模型，它们提供的结果可能是不同的，有些结果是好的，但也有是恶意或不良的结果。因此，我们有必要规范和提高这些模型的质量和可控性。

一些大模型通常会进行大量对齐和对抗训练。例如在GPT-4问世之前，有不同领域的专业人士从不同角度来提出问题检查模型的准确性，以查看该系统是否会产生不合规的结果或恶意结果，并尝试规范和调整。但目前还有许多模型（包括很多开源模型），并没有经过这种严格的测试或对抗性训练，因此会存在各式各样的安全风险问题。

一种值得尝试的技术路径是将某个最佳模型视为“导师”，然后促使其他模型以一种高效而经济的方式模仿该模型的行为。当然还有更多其他方面的工作，例如针对不同国家的规范要求，为每个具体的模型做规范和对齐工作。

虽然我们希望这些模型在使用时始终能够生成符合规范的结果，但风险的概率永远不会降至0。另外在使用时，我们还需要考虑到伦理道德、法律规则等等方面，这需要不同行业领域共同来管理和规范，共同让模型更好地为人类服务。

腾讯科技：刚我们提到，通过不断的训练纠正和降低大模型的错误率，那么我们又该如何衡量它的可靠性？您一直深耕在贝叶斯深度学习领域，您认为如何建立和优化模型，以提高预测的准确性和可靠性？

朱军：行业对于准确性的目标基本是相同的，通常都是用客观的指标来衡量，具体指标与执行的具体任务有关。在分类和识别等方面，最终的识别准确率会被用来引导模型的训练。

对于不确定性的问题，比如神经网络，我们发现在很多情况下，它的预测会过于自信和乐观。例如针对一些结果的输出，本来是一种模糊或者不确定的预测，但它会过于自信地告诉你预测结果，我们将其称为“过度自信”。

对于这种现象或问题，使用贝叶斯方法的深度学习技术可以更好地刻画不确定性。主要可以从多个方面考虑，例如对于输入端可能存在的不确定因素以及模型端可能存在的不确定因素，给出更符合实际情况的置信度。相比神经网络，贝叶斯的这种方法更可靠。

腾讯科技：现实世界中的网络结构往往非常复杂，包括多层次、多维度、动态变化等特征，这会给扩散概率模型的建立和优化带来很大的挑战。您带领的团队是国际上最早从事扩散概率模型理论与算法研究的团队之一，贵团队在模型建设上，是如何排除噪音和数据的不确定性等问题，提升模型的鲁棒性和可靠性的？

朱军：扩散模型是一个生成模型，它有前向扩散和逆向扩散两个过程。前向扩散是通过逐渐添加噪声将一张图像变成一个完全随机的高斯噪声图像。而逆向扩散是从一个几乎没有结构的分布开始，逐渐去噪，收敛到能够刻画真实数据的分布。从这个分布可以生成新的样本，比如现在广泛研究的文本、图片和视频生成等。

扩散模型是生成领域中最关键的技术之一。在鲁棒性方面，扩散模型的思想类似于对抗样本。对抗样本是通过在生成过程中添加算法优化的噪声来达到攻击的目的。而反过来，我们可以通过逐渐查找逆向扩散过程中的分布，来优化噪声的幅度和方向，以提高模型的鲁棒性。这种方法也可以应用于噪声数据的生成，以提高模型的可靠性和准确性。

腾讯科技：在文生其他方向的应用方面，我们又该如何提升AI的准确率呢？我关注到您的团队近期提出的文生3D新算法 ProlificDreamer，在无需任何3D数据的前提下能够生成超高质量的3D内容，贵团队是如何处理语义的多样性和歧义性，以生成更加准确的三维模型的？

朱军：相比传统的3D方法，业内通常会采用一个2D预训练的生成模型（如扩散模型），在图像数据库上进行训练。在进行3D生成时，我们需要将生成的2D图像映射到3D模型上，其中需要加入一个称为“蒸馏”的中间步骤。由于3D模型具有空间结构，我们需要考虑物体的3D属性。因此，我们需要从各个角度观察物体并渲染出对应的2D图像，然后将其对准到预训练模型中，这样就能够生成3D资产等。但是，这种方法也存在一些局限性。比如它生成的结果通常过于饱和或者过于平滑，缺乏细节和纹理等信息。

为了解决这个问题，我们需探索更底层的技术。我们发现，使用蒸馏算法去寻找单个3D模型存在一些本质困难，需要从基础原理上进行克服。已有算法在目标函数中寻找某种极值，类似于“贪心算法(Greedy algorithm)”，它只会寻找最优解，为了达到这个目的，已有工作改变目标函数使得在某些区域更高，在其他区域则更平均，这种目标函数调整的方法可以很快地找到最终的解决方案。

为了克服上述方法的困难，我们重新定义了文到3D的生成问题，将其视为从3D模型可能服从的某个分布中进行采样，然后将其渲染并与预训练的2D模型进行对齐。这种采样方法的好处在于：2D模型本身是一个概率模型，描述信息比贪心寻优要更丰富；为此，我们推导出了一种新的变分蒸馏算法，并使用它在基本相同的时间下生成了很多非常细节和复杂的3D场景，包括高分辨率的资产。

我们的方法重点在于它降低了或者完全去掉了对3D训练数据的依赖，并显著提高生成的质量。最近与做图形学的从业者交流，他们也觉得这个效果相当惊艳。让我们看到了能够生成高质量3D图像的巨大潜力。

对于歧义的处理方面。对于相同的文本输入，不同的人可能会有不同的理解，例如“Apple”这个词可能指苹果、苹果公司或其产品。在我们的模型中，使用基于概率的采样方法可以生成多种可能的结果，从而解决歧义问题。长期来看，消除歧义需要更多的线索和对齐来提高可控性和精确性，如文本和图像或其他模态数据的对齐。在语言和多模态领域中，最终的意义与相关的上下文相关。

目前，我们正在与不同行业客户合作，进一步改进我们的3D生成技术，使其更加成熟。在3D领域，高质量的3D资产具有很高的价值，例如游戏资产创建场景中，传统的公司通常使用几何学或图形学等传统方法来构建和维护3D资产库，时间投入大，我们的技术能够大幅提高创作效率，减少时间成本。

*腾讯科技《AI未来指北》系列策划，围绕AI技术发展、商业模式、应用场景、治理几大板块，关注AI未来发展趋势，邀约行业专家、投资人、创业者，持续输出深度内容。

X 关闭