AI愈发想逃脱人类的控制？必须给它立个新规矩了！

时间：2024-04-15 00:00 【转载】阅读

技术专家和政策制定者越来越多地强调，需要应对人工智能（AI）系统带来的灭绝风险，因为这些系统可能会逃脱“人类的控制”。

越来越多的研究也表明，利用强化学习（RL）训练的智能体（agent），能比人类更有效地进行长期规划，在很长一段时间内采取能使其回报最大化的行动，这一点尤其令人担忧。

另外，欺骗人类和逃避人类控制的动机不仅会出现在强化学习智能体上，也可能出现在长期规划智能体（LTPA）上。

加州大学伯克利分校计算机科学杰出教授、博士后 K. Cohen，以及图灵奖得主、蒙特利尔大学计算机科学教授等多位学者认为，虽然各国政府现在都在关注先进 AI 系统带来的风险，但目前的监管工作还不够完善。

为此，他们提出了一种新的 AI 治理机制，用于监督和控制高级 AI 智能体的开发和使用。相关文章以“ ”为题，已发表在科学期刊上的 Forum 栏目上。

据介绍，该治理机制的核心监管建议非常简单：开发者/开发商不应被允许构建能力足够强的 LTPAs，而且构建 LTPAs 所需的资源也应该受到严格控制。文章要点如下：

如果一个智能体足够先进，它可能会采取措施确保自己不被关闭，甚至可能会尝试通过控制资源来最大化回报。

限制强大智能体学会对其环境施加的影响是极其困难的。例如，智能体可以说服或付钱给不知情的人类参与者，让他们代表自己执行重要行动。

对于能力足够强的 LTPAs 来说，安全测试很可能要么是危险的，要么是没有参考价值的。

应建立新的监管机构，赋予其法律权威和技术能力，从一开始就防止此类智能体的建立，无论其属于哪个领域。

如果具有危险能力的 LTPAs 在某个时间被允许开发，首先需要进行严格的技术和监管工作，从而确定是否允许、何时允许以及如何允许。

智能体有哪些风险？

在这篇文章中，他们将 LTPA 定义为一种设计用于生成计划的算法，“当计划 A 在很长一段时间内更有利于给定目标时，它会选择计划 A 而不是计划 B”。他们写道，对于智能体而言，当某些输入被指定为“奖励”时，它会做出能够带来更高回报的行动，能力强、有远见的智能体很可能会非常成功地累积奖励。最关键的是，要确保以极高的概率持续获得最大回报，智能体就必须实现对环境的控制，而这可能会带来灾难性后果。

然而，智能体要想实现长期回报的最大化，途径之一是获取大量资源、控制所有人类基础设施，从而不受人类干扰。此外，由于被人类关闭会降低预期回报，有足够能力的智能体很可能会采取措施排除这种可能性，或者在可行的情况下，创建新的智能体（不受监控或关闭阻碍）来代表自己做事。

他们认为，限制具有强大能力的智能体学会对其环境施加的影响是极其困难的。例如，智能体可以说服或付钱给不知情的人类参与者，让他们代表自己执行重要行动。

然而，虽然各国政府都对 AI 带来的生存风险表达了担忧，但 Cohen 等人认为，相关监管提案并没有充分解决这类风险。

例如，欧盟的《人工智能法案》列举了 AI 带来的一系列风险，但没有单独列出 LTPAs 的失控问题；为了解顶尖 AI系统的能力，美国和英国的 AI 安全研究所正在建设监管机构，但缺乏控制 AI 的权力。

而且，他们认为，对于能力足够强的 LTPAs 来说，安全测试很可能要么是危险的，要么是没有参考价值的。如果一个智能体足够先进，能够识别出自己正在接受测试，那么就没有什么理由期待它在测试中和测试外有类似的行为。虽然目前还没有任何智能体的能力足以挫败人类的控制，但已经发现一些智能体能够识别安全测试并暂停不当行为。

如何治理？

遗憾的是，他们还无法明确定义什么是“足够的能力”。

但是，他们表示，如果有足够的资源对系统进行训练，使 LTPAs 有可能表现出一些危险能力，那么这些系统就应被视为具有“危险能力”。

他们呼吁，由于无法确保对 LTPAs 测试的安全性和有效性，应建立新的监管机构，赋予其法律权威和技术能力，从起点防止此类智能体的建立，无论其属于哪个领域。

监管机构不应该允许开发具有危险能力的 LTPAs，需要对可能用于生产具有危险能力的 LTPA 的资源进行仔细监测和控制。

他们建议，决策者应该制定一份危险能力清单，并估算开发具有这些能力的 LTPAs 所需的资源（算力、数据等）。

如果具有危险能力的 LTPAs 在某个时间被允许开发，首先需要进行严格的技术和监管工作，从而确定是否允许、何时允许以及如何允许。

具体来说，他们提出了以下几点建议：

1）监控及报告：提出 AI 监管应该像核监管一样，对生产具有危险能力的 LTPAs 所需的资源进行控制。这些资源被称为生产资源（PRs），包括超过一定计算阈值的 AI 模型。监管机构可以通过跟踪所需硬件来检测这些资源；建议开发者报告 PRs 的相关信息，如输入/输出属性、数据收集过程、训练目标和测试环境中的记录行为，但不包括模型权重本身。此外，还应报告存储 PRs 的机器及其位置、运行的代码和输出。

2）生产控制：监管机构可以通过了解相关资源来禁止生产具有危险能力的 LTPAs。开发者在开发前可以向监管机构咨询，从而确保系统符合规定；监管机构还可以规定使用不符合要求的系统为非法行为。

3）执法机制：为确保遵守报告要求和使用控制，监管机构可能需要获得授权，包括发布法律命令、审计活动、限制资源访问和处以罚款。对于不合规的组织，还可以追究企业领导者和关键个人的个人责任。

4）监管机构：不同国家可能需要采取不同的方法，但预计特定领域的监管（如金融和医疗）将解决其他风险，而失控风险可能需要建立新的监管机构。

更广泛的担忧

当然，LTPA 并不是唯一一种会带来重大甚至生存风险的 AI 系统。他们建议，针对足够先进的 LTPAs，经验测试是不够的，但可以大大提高其他类型 AI 的安全性。

此外，他们也表示，他们提出的治理制度也可以适用于其他 AI 系统，尽管这些建议填补了一个重要空白，但可能还需要进一步的制度机制来降低高级智能体带来的风险。

参考链接：

上一篇春季出游要防蜱虫叮咬下一篇中国3D打印贮箱首次实现在轨应用

深入学习贯彻党的二十大精神

为奋力谱写忻州高质量发展新篇章贡献科协力量

AI愈发想逃脱人类的控制？必须给它立个新规矩了！