兰德公司发布:《强化学习人工智能系统的风险评估》
2024年7月2日,兰德公司发布报告《强化学习人工智能系统的风险评估》,讨论了美国国防部在实际应用强化学习技术时可能面临的一些挑战。在复杂的战略游戏中,强化学习系统击败世界级专家,然而在实际应用中这种系统会带来哪些风险尚未可知。元战略编译该报告重点内容,为了解在作战指挥和控制使用强化学习系统的相关风险提供借鉴。
一、研究背景
该报告探讨了将强化学习(RL)技术引入美国国防部的潜在风险,描述了随着人工智能所执行任务的规模、复杂性和重要性日益增长,美国国防部所面临的风险。近期,人工智能在医学、自然语言处理和自动驾驶等多种应用领域取得了令人瞩目的成就。在游戏领域,人工智能已经掌握了国际象棋和围棋等经典棋类游戏,此外《星际争霸II》和《Dota2》等复杂的在线游戏,通常都有强化学习技术的影子,这激发了人们对将强化学习技术应用于美国国防部的极大兴趣。
该报告利用一个为复杂的美国国防部任务提供决策分析的虚拟强化学习应用程序来探讨其中的一些问题。之所以选择这么一个复杂且范围广泛的应用程序是为了涵盖美国国防部的各种领域,以提取在初步评估技术可行性时可能会忽略的多重挑战和后果。兰德公司的技术专家和目前在兰德公司工作的几位美国国防部研究员参加了为期一天的指导研讨会,对该应用进行了分析。通过这次研讨会,明确了一系列重要挑战,这些挑战可能是美国国防部在基于决策的复杂应用中使用强化学习技术时需要考虑的问题。
二、研究问题
1.在复杂的美国国防部应用中开发和部署强化学习系统可能会面临哪些主要技术挑战?
2. 在使用这种技术时,美国国防部可能会面临哪些主要的非技术挑战,例如因部署强化学习技术而导致的部队重组?
3. 如果有的话,有哪些解决方案可用于应对这些挑战,如果不实施这些方案,会有哪些潜在风险?
4. 如果解决方案包括重新训练强化学习系统以应对意外故障,如何确定重新训练的需求?在应用中发生故障时,这种再训练是否可行?
5. 确定的挑战如何匹配应用范围(狭义或广义)和技术部署的速度?
三、研究方法
研究人员首先对强化学习技术进行文献综述,以确定当前科技界在使用强化学习技术开发应用时面临的技术挑战和取得的成功。回顾的内容既包括主要针对模拟环境的应用(如游戏),也包括旨在最终实现真实世界操作的商业应用(如自动驾驶)。在主要由非技术性国防部专家组成的研讨会上,提出并总结了八个挑战领域。然后,研究人员制定了替代方案,以帮助探索在美国国防部应用中部署基于强化学习技术的系统所面临的挑战和影响。为了突出探索重点,研究人员选择了一种复杂的、基于决策的美国国防部应用——作战级指挥与控制,它可能会对美国国防部的部队结构、部署和当前技术水平提出各种挑战。这种应用会因任何已确定的和未缓解的挑战而产生严重后果。它还能让美国国防部从应用范围、粗略部署时限以及可能需要美国国防部部长期投资或调整的问题等方面考虑强化学习技术。研究人员制定了两种方案:一种是以“爬行-行走-运行”的方式逐步开发和部署强化学习代理或系统,另一种是以“冒进”的方式直接进入运行阶段。
然后,研究人员探讨了一种有指导的研讨会形式,旨在为美国国防部参与者提供一个有用的论坛,以提出在选定场景中使用强化学习技术所面临的挑战和可能的解决方案。这个框架允许美国国防部的参与者自由讨论,他们可能有操作经验,但在人工智能方面经验很少或没有经验。研究人员首先考虑了一个正式的基于风险的框架来应用于研讨会,但文献综述发现没有这样的框架适合人工智能。如果构建这样一个框架,将会因为对强化学习技术故障率的不甚了解而变得复杂,并且会给为期一天的研讨会带来不必要的复杂性。研究人员决定修改Mayer等人开发的框架。
研讨会为期一天,分三次会议进行。第一场会议最初侧重于在“爬行-行走-奔跑”和“冒进”情景下部署强化学习技术对美国国防部部队结构提出的挑战。假定该技术已经过充分的测试和验证,适合部署。这种假设的目的是将重点从专用于飞行任务的技术挑战转移开来。在第二场会议中,通过文献综述总结出的技术挑战被提供给与会者审议,而不是从头开始提出挑战。第三场会议用于讨论与会者认为在前两次会议中缺失的问题。这一环节还被用来审议所讨论的一些关键挑战。
四、研究发现
1.美国国防部在使用和开发强化学习技术方面可能受到限制,原因是缺乏该领域的专业技能人才,而且由于该领域竞争激烈、利润丰厚,一旦获得相关人员此类技能,就很难留住人才。
2. 随着强化学习应用程序规模扩大,其对数据的要求也越来越高,这可能会超出美国国防部培训范围较窄的应用程序的能力。
3. 强化学习技术的黑箱决策性质,以及人类不愿意相信此类系统的非直观判断所带来的问题,可能会限制应用的规模,使其仅限于目前由人类执行的决策流程。人类无法合理评估的大型决策流程可能会面临信任问题。
4. 随着应用范围的扩大,强化学习技术还面临许多其他挑战,包括训练集和模拟模型的增长。在这种情况下,测试与评估可能会变得非常棘手。用于训练强化学习技术的现实模型无法捕捉物理世界的复杂性和变化,当强化学习技术遇到偏离其训练的情况时,可能会出现不可预知的失败。因此,测试与评价可能会成为一个费力的过程,需要找到失效模式并进行后续训练,以迫使强化学习系统按预期运行。
5. 虽然文献中的许多解决方案针对的是个别挑战领域,但在美国国防部的广泛应用中可能存在的所有挑战都没有找到解决方案。
五、政策建议
1. 美国国防部应探索如何吸引、培训和留住一支具备使用强化学习技术所需技能的员工队伍。鉴于强化学习技术的前沿性和动态性,吸引相应的人才非常重要。从文献中总结的一些技能组合包括:开发新算法以解决特定问题的能力;训练强化学习系统的数据工程技能;训练强化学习系统的建模环境;以及在真实测试环境中寻找失败实例以重新训练强化学习技术或修改其算法的分析技能。要吸引这些人才,可能需要改变部队结构,使美国国防部在人工智能领域的工作与私营部门的工作具有竞争力。
2. 美国国防部应制定方法,以获取和生成与美国国防部问题相关的数据,以及强化学习算法培训所需的数据。这些数据必须包括在预期强化学习系统运行的环境和情况下收集的操作数据。如果预期强化学习系统将取代一个因其性质而没有许多可借鉴实例的决策过程,则收集或生成此类数据集可能会具有挑战性。
3. 在能够利用强化学习技术的优势之前,美国国防部应更好地了解强化学习应用的局限性,以及它如何提供优于现有技术的优势。这种了解将包括在作战情况下对强化学习技术进行充分测试和再培训的过程,以及将预期风险降低到可接受水平的能力。
4. 美国国防部应考虑利用应用于较小问题的狭义人工智能可能带来的渐进式进步,而不是一开始就追求应用于更复杂问题的广义人工智能可能带来的优势。这种方法可能会带来较小的风险,同时为更广泛的人工智能提供一种引导训练手段。
六、结语
强化学习技术和一般的人工智能技术为美国国防部提供了具有潜在战略优势的能力。但美国国防部的许多任务,特别是那些可能涉及战略决策的任务,都具有广泛性,这就给这种技术带来了挑战。由于强化学习技术是通过与环境的反复交互来学习的,因此这类任务可能无法通过建模来为强化学习系统提供足够训练实例,以防止任务出现潜在的灾难性失败。由于强化学习技术在解决狭小问题方面已表现出令人难以置信的能力,因此对美国国防部而言,其价值可能在于找到美国国防部任务中的“甜点”,在这个“甜点”上,可以对强化学习技术进行充分训练,以补充或超越人类的决策能力,同时充分减少其失误,将任务风险降低到可接受的水平。与此同时,还必须考虑仅由技术故障引起的风险。对部队结构以及培训、操作和维护任何基于强化学习技术的系统的能力的影响也很重要。可能需要技能熟练的人员来解决潜在的强化学习技术故障,或留在原地监测和评估强化学习系统输出。技能损失、技能退化、人员转移以及对人工智能相关专业技能的需求,都是在选择强化学习技术为美国国防部提供最大价值时需要考虑的因素。
免责声明:本文转自元战略。文章内容系原作者个人观点,本*编译/转载仅为分享、传达不同观点,如有任何异议,欢迎联系我们!
转自丨元战略
研究所简介
国际技术经济研究所(IITE)成立于1985年11月,是隶属于国务院发展研究中心的非营利性研究机构,主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题,跟踪和分析世界科技、经济发展态势,为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方*账号,致力于向公众传递前沿技术资讯和科技创新洞见。
地址:北京市海淀区小南庄20号楼A座
电话:010-82635522
*:iite_er