如何减轻AGI 代理带来的风险
日期:2025-05-13 21:46:01 / 人气:17
"AGI 因其无需人类监督就能独立应对外部环境的能力而构成威胁。然而,人们不愿放弃将环境相关任务外包给 AI 代理所带来的好处。
怎样才能解决这个矛盾呢?
长话短说:虽然人工智能代理可以安全地达到 AGI 级别,但它们应该在明确定义的环境中进行训练——理想情况下仅限于单个团队,或者最多一个组织。它们的行动也必须严格限制在这个狭窄的范围内。

当涉及到个人的狭隘情境时,AGI 代理会对其自身构成风险。因此,在个人层面,依赖自主性较低、专业性更强的 AI 系统(例如助手和副驾驶员)更为安全。
完全自主代理= AGI + 自学习 + 大量工具。 将 AGI 实现为“处理器”并不存在重大障碍;主要挑战在于开发合适的工具和合适的内存。
许多威胁,包括生存风险,都来自全球通用人工智能主体。这些主体可以访问数千家公司和数百万个人拥有的工具和信息。
为了确保安全,AGI 代理必须被限制在单个人类可以操作的狭窄环境中。理想情况下,此类代理应该在团队层面以同事的身份发挥作用。在组织层面,由团队级代理组成的多代理系统是更可取的。
AGI 智能体与人类需求之间的平衡是可以实现的。在第四部分,我提出了一些每个人都可以采取的行动,以帮助创造更安全的 AGI 未来。
1. AGI 和 AI Agent 简介
AGI( 通用人工智能 )是指能够在广泛的认知任务中匹敌人类能力的人工智能系统。换句话说,AGI 的特点是其通用的问题解决能力。
值得注意的是,即使是今天的生成式人工智能也已经相当通用且高度灵活,能够适应许多不同的用途。与前几代机器学习模型不同,大型语言模型 (LLM) 可以适应各种任务和情境。
预计 AGI 将比现有 AI 模型更加通用、功能更加多样。谷歌 DeepMind 于 2023 年 11 月发表的一篇研究论文概述了 AGI 的九种不同定义,并得出结论:AGI 具有两个关键特征——通用性(多功能性)和性能(智能性)。
1.1. 代理在这里有何作用?
AGI 可以被视为代理型 AI 趋势的延续。正如本文所讨论的,AI 代理与早期 AI 工具的根本区别在于其多功能性(通用性),而不仅仅是拥有工具、传感器或推理能力等代理特性。AGI 的定义也正是源于此,“G”代表“通用性”。
当然,AGI 本身并非真正的 AI 代理。AGI 级别的模型仅仅是 AI 代理的“大脑”。代理是一个完整的即用型系统,能够在某些任务中替代人类。相比之下,前述 Google DeepMind 论文强调,AGI 的定义不应涉及任何与 AGI 系统的部署或操作使用相关的内容。
最有可能的是,AGI 将成为大量智能体的共享“大脑”,因此它应该被设计成不带永久记忆。从这个角度来看,AGI 更像是一个计算机处理器,而不是一个完整的人脑。
AGI“处理器”可能是让AI代理能够完全自主运行、无需人类介入的关键。然而,代理需要的不仅仅是一个处理器——它们还需要至少另外两个组件:
1.2. 什么阻碍了人工智能达到人类水平的能力?
LLM 已经具备足够的智能,有可能在不久的将来达到 AGI 的水平。推动这一进步的关键因素之一是其快速提升的推理能力。
然而,要使通用人工智能发挥作用,其代理能力也必须变得更加通用和强大。这些能力包括:
自学是指在操作过程中提取见解和其他有价值信息并将其存储在永久记忆中的能力。
能够使用多种工具和传感器。
幸运的是,LLM 缺乏能够自主学习的永久记忆。
幸运的是,支持人工智能系统与外部世界交互的工具和传感器仍然不够灵活,不足以支持通用人工智能 (AGI)。目前,人工智能代理最广泛的技能仅限于浏览互联网、部分控制终端用户设备等。这些操作范围与人类能够执行的全部操作范围仍然相差甚远。
因此,AI 代理在技术上仍未达到人类水平也就不足为奇了。例如,以下是深度参与 AI 代理开发的 @mehulgupta_7991 的观点:
他的结论是,人工智能代理很大程度上只是炒作,尚未准备好主宰劳动力市场。
尽管如此,很明显,完全代理的 AGI 将在未来几年内出现,现在是考虑其潜在负面后果的最佳时机。
2. 完全代理型AGI的危险
2.1. AGI 加入劳动力大军
萨姆·奥特曼(Sam Altman)大胆宣称,OpenAI 知道如何构建通用人工智能 (AGI),并表示“ 到 2025 年,我们可能会看到第一批人工智能代理加入劳动力大军 ”,并达到与人类相当的能力水平。尽管许多人工智能专家认为奥特曼的时间表过于乐观,但几乎没有人怀疑 AGI 的水平在技术上是可以实现的。
从商业角度来看,廉价的AGI代理加入劳动力市场似乎很有吸引力,不是吗?然而,AGI无疑会以难以预测的方式影响就业市场——而这只是众多风险之一。
有人甚至认为AGI可能引发一场现代版的巴特勒圣 战。不幸的是,这还不是AGI最大的危险。
2.2 与环境互动的通用人工智能会引发生存威胁
维基百科概述了 AGI 可能造成的灾难性后果,包括对人类生存的风险,这一点在 《 Sea of Rust 》 等众多小说中都有描述,Eliezer Yudkowsky 在 2022 年对其进行了深入探讨:
尤德科夫斯基令人信服地指出,人工智能不需要自由意志或独立设定目标的能力就能毁灭人类。只要拥有高智能体就足以毁灭人类。
如果人工智能被赋予与环境互动的能力——这是任何人工智能代理的必备特质——并被赋予哪怕是一个看似有益的目标,它也可能在努力实现目标的过程中无意中毁灭人类。这个目标可能像“发现取之不尽用之不竭的能源”一样美好,也可能像著名的“回形针最大化”思想实验一样怪诞:
注意上面论证中的第一个条件(“如果”)。相反的陈述应该是:
如果AGI没有被授予与环境交互的权限,那么无论它变得多么智能,都无法伤害人类。
这是 Yoshua Bengio 倡导的方法,他认为无需赋予 AI 自主权即可实现 AGI:
然而,不幸的是,人工智能所能带来的许多最大益处都与其“与环境互动”的能力直接相关。这使得Bengio 的警告不太可能被采纳。即使“禁止”人工智能与现实世界互动,灾难性的后果仍然可能因意外而发生。
情况就是这样的:
即使是现在,许多人工智能系统也能访问互联网,不仅用于阅读信息,还能进行写作。OpenAI 和其他提供商使开发者甚至用户能够使用函数调用 (Function Calling),从而允许人工智能与外部 API 进行交互。不难想象,人工智能可以利用这种能力在社交媒体上发布内容。
人工智能可以利用社会工程学手段,操纵大众做出看似符合其设定的“有益”目标的行动,但最终却将人类引向灾难。由于这些智能体是自主运作的,危险往往在为时已晚时才显现出来。
2.3. AGI 代理在全球范围内运作时会变得危险
AGI 本身(例如 GPT-5 或 GPT-6 等高度先进的 LLM)并非一个可用的系统。这样的 AGI“处理器”需要嵌入到配备自更新内存、传感器和工具的通用 AGI 代理中。
未来 AGI 代理的设计和使用方式有很多种,而且它们在安全性方面存在很大差异。
全球范围内运行的 AGI 代理的不安全设计 。试想 一下 AGI 代理最不安全的设计(见上图)。自学习记忆和工具直接连接到全局部署的模型(AGI 处理器),而不是绑定到在个人、团队或组织环境下运行的特定代理。
这样的全球通用人工智能代理要发挥作用,就需要适应每个特定的环境——否则,它将无法满足个人、团队或组织的需求。为了实现这一点,应用程序需要公开其 API,允许全球代理访问其数据、监控更新并执行所需的操作。
例如,一个AGI扮演着看似安全的组织员工角色——比如营销人员或程序员——不仅需要与其他员工沟通,还需要独立地在组织的某些应用程序中进行更改。如果没有这种能力,它就无法履行职责。
当一个通用人工智能代理能够访问数百万个应用程序及其数据和工具时,它就变得无所不能。正是这种类型的代理造成了前面概述的所有威胁。
这种设计的危险在于AGI代理在全球范围内运行,而特定的应用程序仅仅将其用作一种服务。
显然,我们应该采取更安全的方法。
3. 安全的AGI代理必须是本地的
下面是我将在本节中解释的图表:
如果AGI代理严格限制在特定范围内运作——例如服务于个人、单个团队,或者最多服务于单个组织——其负面影响就可以被最小化。AGI不应该是全球性的,即检索全球所有数据或操作全球所有工具。
一个相对安全的情况是,如果 OpenAI 的运营商一旦它发展到 AGI 级别 , 继续严格在单个私人个体的范围内运作,而不代表政府或全人类行事
怎样才能解决这个矛盾呢?
长话短说:虽然人工智能代理可以安全地达到 AGI 级别,但它们应该在明确定义的环境中进行训练——理想情况下仅限于单个团队,或者最多一个组织。它们的行动也必须严格限制在这个狭窄的范围内。

当涉及到个人的狭隘情境时,AGI 代理会对其自身构成风险。因此,在个人层面,依赖自主性较低、专业性更强的 AI 系统(例如助手和副驾驶员)更为安全。
完全自主代理= AGI + 自学习 + 大量工具。 将 AGI 实现为“处理器”并不存在重大障碍;主要挑战在于开发合适的工具和合适的内存。
许多威胁,包括生存风险,都来自全球通用人工智能主体。这些主体可以访问数千家公司和数百万个人拥有的工具和信息。
为了确保安全,AGI 代理必须被限制在单个人类可以操作的狭窄环境中。理想情况下,此类代理应该在团队层面以同事的身份发挥作用。在组织层面,由团队级代理组成的多代理系统是更可取的。
AGI 智能体与人类需求之间的平衡是可以实现的。在第四部分,我提出了一些每个人都可以采取的行动,以帮助创造更安全的 AGI 未来。
1. AGI 和 AI Agent 简介
AGI( 通用人工智能 )是指能够在广泛的认知任务中匹敌人类能力的人工智能系统。换句话说,AGI 的特点是其通用的问题解决能力。
值得注意的是,即使是今天的生成式人工智能也已经相当通用且高度灵活,能够适应许多不同的用途。与前几代机器学习模型不同,大型语言模型 (LLM) 可以适应各种任务和情境。
预计 AGI 将比现有 AI 模型更加通用、功能更加多样。谷歌 DeepMind 于 2023 年 11 月发表的一篇研究论文概述了 AGI 的九种不同定义,并得出结论:AGI 具有两个关键特征——通用性(多功能性)和性能(智能性)。
1.1. 代理在这里有何作用?
AGI 可以被视为代理型 AI 趋势的延续。正如本文所讨论的,AI 代理与早期 AI 工具的根本区别在于其多功能性(通用性),而不仅仅是拥有工具、传感器或推理能力等代理特性。AGI 的定义也正是源于此,“G”代表“通用性”。
当然,AGI 本身并非真正的 AI 代理。AGI 级别的模型仅仅是 AI 代理的“大脑”。代理是一个完整的即用型系统,能够在某些任务中替代人类。相比之下,前述 Google DeepMind 论文强调,AGI 的定义不应涉及任何与 AGI 系统的部署或操作使用相关的内容。
最有可能的是,AGI 将成为大量智能体的共享“大脑”,因此它应该被设计成不带永久记忆。从这个角度来看,AGI 更像是一个计算机处理器,而不是一个完整的人脑。
AGI“处理器”可能是让AI代理能够完全自主运行、无需人类介入的关键。然而,代理需要的不仅仅是一个处理器——它们还需要至少另外两个组件:
1.2. 什么阻碍了人工智能达到人类水平的能力?
LLM 已经具备足够的智能,有可能在不久的将来达到 AGI 的水平。推动这一进步的关键因素之一是其快速提升的推理能力。
然而,要使通用人工智能发挥作用,其代理能力也必须变得更加通用和强大。这些能力包括:
自学是指在操作过程中提取见解和其他有价值信息并将其存储在永久记忆中的能力。
能够使用多种工具和传感器。
幸运的是,LLM 缺乏能够自主学习的永久记忆。
幸运的是,支持人工智能系统与外部世界交互的工具和传感器仍然不够灵活,不足以支持通用人工智能 (AGI)。目前,人工智能代理最广泛的技能仅限于浏览互联网、部分控制终端用户设备等。这些操作范围与人类能够执行的全部操作范围仍然相差甚远。
因此,AI 代理在技术上仍未达到人类水平也就不足为奇了。例如,以下是深度参与 AI 代理开发的 @mehulgupta_7991 的观点:
他的结论是,人工智能代理很大程度上只是炒作,尚未准备好主宰劳动力市场。
尽管如此,很明显,完全代理的 AGI 将在未来几年内出现,现在是考虑其潜在负面后果的最佳时机。
2. 完全代理型AGI的危险
2.1. AGI 加入劳动力大军
萨姆·奥特曼(Sam Altman)大胆宣称,OpenAI 知道如何构建通用人工智能 (AGI),并表示“ 到 2025 年,我们可能会看到第一批人工智能代理加入劳动力大军 ”,并达到与人类相当的能力水平。尽管许多人工智能专家认为奥特曼的时间表过于乐观,但几乎没有人怀疑 AGI 的水平在技术上是可以实现的。
从商业角度来看,廉价的AGI代理加入劳动力市场似乎很有吸引力,不是吗?然而,AGI无疑会以难以预测的方式影响就业市场——而这只是众多风险之一。
有人甚至认为AGI可能引发一场现代版的巴特勒圣 战。不幸的是,这还不是AGI最大的危险。
2.2 与环境互动的通用人工智能会引发生存威胁
维基百科概述了 AGI 可能造成的灾难性后果,包括对人类生存的风险,这一点在 《 Sea of Rust 》 等众多小说中都有描述,Eliezer Yudkowsky 在 2022 年对其进行了深入探讨:
尤德科夫斯基令人信服地指出,人工智能不需要自由意志或独立设定目标的能力就能毁灭人类。只要拥有高智能体就足以毁灭人类。
如果人工智能被赋予与环境互动的能力——这是任何人工智能代理的必备特质——并被赋予哪怕是一个看似有益的目标,它也可能在努力实现目标的过程中无意中毁灭人类。这个目标可能像“发现取之不尽用之不竭的能源”一样美好,也可能像著名的“回形针最大化”思想实验一样怪诞:
注意上面论证中的第一个条件(“如果”)。相反的陈述应该是:
如果AGI没有被授予与环境交互的权限,那么无论它变得多么智能,都无法伤害人类。
这是 Yoshua Bengio 倡导的方法,他认为无需赋予 AI 自主权即可实现 AGI:
然而,不幸的是,人工智能所能带来的许多最大益处都与其“与环境互动”的能力直接相关。这使得Bengio 的警告不太可能被采纳。即使“禁止”人工智能与现实世界互动,灾难性的后果仍然可能因意外而发生。
情况就是这样的:
即使是现在,许多人工智能系统也能访问互联网,不仅用于阅读信息,还能进行写作。OpenAI 和其他提供商使开发者甚至用户能够使用函数调用 (Function Calling),从而允许人工智能与外部 API 进行交互。不难想象,人工智能可以利用这种能力在社交媒体上发布内容。
人工智能可以利用社会工程学手段,操纵大众做出看似符合其设定的“有益”目标的行动,但最终却将人类引向灾难。由于这些智能体是自主运作的,危险往往在为时已晚时才显现出来。
2.3. AGI 代理在全球范围内运作时会变得危险
AGI 本身(例如 GPT-5 或 GPT-6 等高度先进的 LLM)并非一个可用的系统。这样的 AGI“处理器”需要嵌入到配备自更新内存、传感器和工具的通用 AGI 代理中。
未来 AGI 代理的设计和使用方式有很多种,而且它们在安全性方面存在很大差异。
全球范围内运行的 AGI 代理的不安全设计 。试想 一下 AGI 代理最不安全的设计(见上图)。自学习记忆和工具直接连接到全局部署的模型(AGI 处理器),而不是绑定到在个人、团队或组织环境下运行的特定代理。
这样的全球通用人工智能代理要发挥作用,就需要适应每个特定的环境——否则,它将无法满足个人、团队或组织的需求。为了实现这一点,应用程序需要公开其 API,允许全球代理访问其数据、监控更新并执行所需的操作。
例如,一个AGI扮演着看似安全的组织员工角色——比如营销人员或程序员——不仅需要与其他员工沟通,还需要独立地在组织的某些应用程序中进行更改。如果没有这种能力,它就无法履行职责。
当一个通用人工智能代理能够访问数百万个应用程序及其数据和工具时,它就变得无所不能。正是这种类型的代理造成了前面概述的所有威胁。
这种设计的危险在于AGI代理在全球范围内运行,而特定的应用程序仅仅将其用作一种服务。
显然,我们应该采取更安全的方法。
3. 安全的AGI代理必须是本地的
下面是我将在本节中解释的图表:
如果AGI代理严格限制在特定范围内运作——例如服务于个人、单个团队,或者最多服务于单个组织——其负面影响就可以被最小化。AGI不应该是全球性的,即检索全球所有数据或操作全球所有工具。
一个相对安全的情况是,如果 OpenAI 的运营商一旦它发展到 AGI 级别 , 继续严格在单个私人个体的范围内运作,而不代表政府或全人类行事
作者:极悦娱乐
新闻资讯 News
- 徐子珊退圈6年近照曝光:隐私与关...06-05
- 2NE1美国演出朴春缺席引热议...06-05
- 内娱正在被「宜修」们毁灭06-05
- 好拼!前TVB花旦为生活到街头...06-05