人工智能洞察 | 监管新趋势:“红队”如何塑造生成式人工智能格局
近年来,红队已经成为大型语言模型开发人员主动测试系统漏洞和有问题的输出的主要方法。
然而,随着世界各国政府和监管机构越来越多地将红队概念作为管理与生成人工智能相关的诸多风险的重要工具,红队行动应该很快会超越“倡议性”的指导原则,而成为必要的监管标准。
一、什么是红队?
红队演习起源于网络安全领域,传统上是指一支专业团队扮演对抗角色,以识别系统的缺陷或漏洞。在生成式人工智能领域,该过程通常需要聘请专门的“红队”来测试模型的边界,以及在各个领域产生不良输出的可能性。
红队演习的重点,是测试模型产生有害、非法或其他不适当内容的倾向——从生成错误信息和图像到复制受版权保护的材料或参与歧视。
红队演习的过程经常涉及精心设计旨在操纵系统行为的提示,例如用复杂内容压倒系统、假装对有问题的内容有良性需求、注入恶意代码或以其他方式利用其逻辑产生非预期的输出。
如果红队发现有问题的模型行为,开发人员就可以实施技术或政策保障措施,以防止或减轻系统在类似的现实场景中做出不当响应的风险。
二、监管机构为何青睐红队
最近,由于生成式人工智能模型面临的技术挑战,全球监管机构已将红队测试作为监管生成式人工智能系统的重要工具。虽然传统或预测性机器学习系统可以进行定量评估,但生成式人工智能系统具有创建新内容的独特能力,而这些内容并不容易进行直接评估。
模型的输出也高度依赖于上下文,并受到输入提示的细微变化的影响,因此很难通过传统的风险评估方法预测所有潜在的故障模式。更复杂的是,不同的系统可能会将模型纳入截然不同的应用程序或行业,每个应用程序或行业都有自己独特的复杂性和相关风险。综合起来,这使得提出一个普遍适用的监管框架相当困难。
尽管传统的定量评估可能不适用,但这些模型仍然可以进行系统测试。上面描述的红队方法提供了一种替代流程,通过该流程,可以以结构化和有意义的方式根据已确定的绩效指标评估这些系统。
认识到这一点后,政府机构越来越多地转向依赖独立红队评估模型相关风险的监管框架。政府不必提出量化标准,而是提供高风险结果或有问题的模型行为的优先列表,并要求独立测试人员根据这些参数评估系统。
这种趋势并非新颖的做法,而是其他行业长期以来的监管做法的缩影。这些行业采用复杂的技术,无法通过统计测试完全捕捉绩效指标,例如医疗保健或自动驾驶汽车。在这些行业中,监管机构通常会使用独立测试或审计来识别需要判断和情境差异的领域中的潜在风险。
三、人工智能红队全球监管趋势
世界各国政府和监管机构正在积极考虑、起草法律和指导,在某些情况下已经实施了这些法律和指导意见,要求对生成式人工智能系统进行外部红队测试,特别是对于可能带来更广泛社会风险的大型语言模型。
监管部门对红队的日益关注,从最近的几份声明、指导方针和拟议法规中可见一斑。
在国际层面,七国集团呼吁生成式人工智能开发者采用“独立的外部测试措施,通过……方法……例如红队测试”。同样,参加2023 年人工智能安全峰会的29 个国家签署的《布莱切利宣言》也强调,开发者负有通过严格的测试和评估措施确保其系统安全的重大责任。
1、美国
在美国,白宫关于人工智能的行政命令大力强调人工智能红队。该命令将“人工智能红队”定义为“一种结构化的测试工作,旨在发现人工智能系统中的缺陷和漏洞”,通常由专门的“红队”使用对抗方法进行。
该行政令还要求美国国家标准与技术研究所(NIST)制定指导方针和程序,使开发人员能够有效地进行这些人工智能红队测试。“双重用途基础模型”的商业开发者(经过广泛训练的通用模型,可能带来安全、经济或健康风险)必须根据即将出台的标准对其系统进行红队测试,并将结果提交给监管机构。
美国白宫发布的其他材料,包括《人工智能权利法案蓝图》和美国科学技术政策办公室最近的一份声明《红队大型语言模型以识别新的人工智能风险》,也强调了外部红队测试对偏见、歧视、安全和隐私等关键人工智能风险的重要性。
除了白宫,红队演习也正在得到美国立法者和行政机构的关注。美国参议院提出的《可信人工智能验证与评估法案》旨在为人工智能评估和审计制定指导方针,包括开展红队演习的外部审计员的标准。
在行政方面,美国国家电信和信息管理局强调了外部红队测试对于确保人工智能问责的价值,并提出对高风险人工智能系统进行强制性独立审计。
美国国家标准与技术研究院(NIST)最近发布的生成式AI 风险管理概况也大力鼓励红队测试,建议开发人员使用这种测试形式来识别“不可预见的故障模式”。该指南特别建议公司使用红队测试来抵御各种攻击,包括恶意代码生成、即时注入、数据中毒和模型提取。红队测试还建议针对有问题的输出进行测试,包括版权侵权、人口统计推断和敏感信息泄露。
在州一级,科罗拉多州最近颁布了《人工智能法案》,该法案对高风险人工智能系统的开发者提出了各种要求,允许公司通过证明他们参与了“对抗性测试或红队”来遵守其要求。与此同时,,将要求生成人工智能系统提供商定期进行“红队练习”,以测试嵌入在人工智能生成内容中的水印的稳健性。
2、欧盟
欧盟也将红队测试作为其人工智能监管方法的关键组成部分。2024年初通过的要求,在产品整个生命周期内,对存在系统性风险的“通用人工智能模型”进行严格的红队测试,即“对抗性测试”。
开发人员还必须披露此类测试所采取措施的详细说明。鉴于欧盟在监管新兴技术方面的领导作用,这些要求可能会影响全球范围内监管人工智能的其他努力。
3、中国
在中国,虽然人工智能法律没有明确提及红队,但有几部法律法规暗示了这一点,要求对人工智能系统进行广泛的评估和测试。
2022年国家互联网信息办公室、工业和信息化部、公安部吉印通发布的《深度合成互联网信息服务管理规定》规定,对具有生成能力的深度学习系统的算法逻辑应当定期进行检查、验证、评估和测试。
2024年3月1日,全国网络安全标准化技术委员会发布的《生成式人工智能服务安全基本要求》禁止人工智能系统从事各种有害行为,并要求开发人员实施安全测试和评估以监控合规性。
虽然没有明确说明,但根据这些规定,全面测试生成式人工智能系统可能需要某种形式的对抗性测试或红队测试。
4、来自其他国家
英国国家网络安全中心强调了红队作为更广泛的人工智能安全战略一部分的重要性。2024年8月2日,英国科学、创新和技术部制定了一项自愿行为准则,建议开发人员参与红队测试,最好使用独立的外部测试人员来评估他们的人工智能模型。
加拿大目前正在制定一套全面的人工智能监管框架,并提出了一项自愿行为准则,建议通用生成人工智能的开发者“在出台具有约束力的监管措施之前”遵守该准则。除其他事项外,该框架建议采用“对抗性测试(即红队测试)来识别人工智能系统中的漏洞”。
虽然英国和加拿大的指导方针都不具有法律约束力,但它们提供了有关这些国家立法者如何处理人工智能治理的见解,并暗示了未来几年可能实施的红队要求。
四、生成式人工智能监管的未来
越来越明显的是,红队将在未来的监管工作中发挥关键作用。
全球各国政府和监管机构都清楚地认识到对抗性测试作为降低人工智能风险的监管工具的价值,未来几年应该会有更多国家强制实施此类测试。随着这些要求逐渐成型,监管机构应当建立最佳实践和认证流程,以确保红队测试与其他外部评估和审计流程一样具有可信度和深度。
目前,围绕此类测试的流程和结构已经形成了一些共识。考虑到这一发展,开发和部署人工智能的公司应积极建立全面的流程来对其系统进行红队测试。为了确保最有效和公正的评估,开发人员应该聘请独立的第三方测试人员来进行这些红队演习,特别是因为监管框架很可能在不久的将来要求这样做。
随着监管环境的不断发展,那些已经建立强大的红队实践的人将能够很好地应对这些即将到来的要求。
相关阅读
作者:安德鲁·艾肯(Andrew Eichen),Luminos.Law 律师,该律所专注于人工智法律政策及其风险管理,是世界上第一家也是唯一一家由律师和数据科学家共同经营的律师事务所。
编译:《互联网法律评论》
【免责声明】本文撰写所需的信息采集自合法公开的渠道,我们无法对信息的真实性、完整性和准确性提供任何形式的保证。本文仅为分享、交流信息之目的,不构成对任何企业、组织和个人的决策依据。
《互联网法律评论》提供业界解决方案
互联网法律国际监管动态研究
互联网产业投资和政策监管研究
互联网企业:极端地缘政治冲突中的战略研究
合作联系
021yin.com
互联网法律评论
《互联网法律评论》是一个全新的法律自媒体平台,持续关注中国及全球互联网科技发展、产业发展和法律监管合规问题,尤其是数据安全与个人隐私保护、知识产权、反垄断等政策监管主题。
该公号运营团队包括:国际国内互联网政策和法律研究、财经媒体资深主编、互联网企业公关战略和品牌运营等不同的专业人士,致力于打造一个持续输出政策法律前瞻信息研究、且具有传播优势的精品平台。