今年 4 月,Daniel Kokotajlo、Scott Alexander 等人发布了一份报告《AI 2027》,描绘了「我们对未来 5 年超人类 AI 影响的最佳猜测」。他们预测,到 2027 年,超人类 AI 将诞生,而整个人类文明的未来将取决于类 AI 的发展结果:到 2030 年,我们要么迎来乌托邦(从美国视角看),要么走向彻底毁灭(从全人类视角看)。
此后几个月,针对这一场景的可能性,出现了大量观点各异的回应。在批判性回应中,多数聚焦于「时间线过快」的问题:AI 的发展真的会如 Kokotajlo 等人所说的那样持续加速,甚至愈演愈烈吗?这场辩论在 AI 领域已持续数年,许多人对超人类 AI 会如此迅速地到来深表怀疑。近年来,AI 能够自主完成的任务时长大约每 7 个月翻一番。若这一趋势延续下去,AI 要能自主完成相当于整个人类职业生涯的任务,得等到 2030 年代中期。这一进展虽然也很快,但远晚于 2027 年。
那些持有更长时间线观点的人倾向于认为,「插值 / 模式匹配」(当前大语言模型所做的工作)与「外推 / 真正的原创思维」(目前仍只有人类能做到)存在本质区别。要实现后者的自动化,可能需要我们尚未掌握甚至无从入手的技术。或许,我们只是在重蹈计算器大规模应用时的覆辙:错误地认为,既然我们已快速实现某类重要认知的自动化,其他一切也将很快跟进。
这篇文章不会直接介入时间线之争,也不会涉及「超级 AI 是否默认具有危险性」这一(非常重要的)争论。但需说明的是,我个人认为时间线会比 2027 年更长,而且时间线越长,我在这篇文章中提出的论点就越有说服力。总体而言,本文将从另一个角度提出批判:
《AI 2027》场景隐含一个假设:领先 AI(「Agent-5」及后续的「Consensus-1」)的能力会迅速提升,直至拥有神一般的经济与破坏力量,而其他所有人的(经济与防御)能力则基本停滞不前。这与情景本身「即便是在悲观世界里,到 2029 年我们也有望治愈癌症、延缓衰老,甚至实现意识上传」的说法自相矛盾。
我将在本文中描述的一些对策,读者或许会觉得技术上可行,但在短时间内部署到现实世界却不切实际。多数情况下,我同意这一点。然而,《AI 2027》场景并非基于当下的现实世界,而是假设在 4 年内(或任何可能带来毁灭的时间线内),技术将发展到让人类拥有远超当前的能力。因此,我们来探讨一下:若不仅一方拥有 AI 超能力,而是双方都拥有,会发生什么?
生物末日远非场景描述的那么简单
让我们放大到「种族」场景(即所有人都死于美国过分执着于击败中国,而忽视人类安全的场景)。以下是所有人死亡的情节:
「约三个月里,Consensus-1 在人类周围扩张,将草原与冰原改造成工厂与太阳能电池板。最终,它认为剩余人类过于碍事: 2030 年中期,AI 在主要城市释放了十余种悄然传播的生物武器,让它们无声地感染几乎所有人,再用化学喷雾触发致命效果。多数人在数小时内死亡;少数幸存者(如掩体中的末日应对者、潜艇上的水兵)被无人机清除。机器人扫描受害者的大脑,将副本存入内存,供未来研究或复活。」
我们来剖析这一场景。即便是现在,也有一些正在研发的技术能让 AI 的这种「干净利落的胜利」变得不那么现实:
· 空气过滤、通风系统与紫外线灯,可大幅降低空气传播疾病的传染率;
· 两种实时被动检测技术:几小时内被动检测出人体感染并发出通知,快速检测环境中未知的新病毒序列;
· 多种增强和激活免疫系统的方法,比新冠疫苗更有效、安全、通用,且易于本地生产,使人体能抵抗自然及人工设计的流行病。人类进化于全球人口仅有 800 万、大部分时间都在户外度过的环境中,因此直觉上,我们应当能够轻松适应当今威胁更大的世界。
这些方法结合起来,或许能将空气传播疾病的基本传染数(R 0)降低 10-20 倍(例如:更好的空气过滤减少 4 倍传播,感染者立即隔离减少 3 倍,简单增强呼吸道免疫减少 1.5 倍),甚至更多。这足以让所有现存空气传播疾病(包括麻疹)无法传播,且这一数字远未达到理论最优。
若能广泛应用实时病毒测序进行早期检测,「悄然传播的生物武器能感染全球人口而不触发警报」的想法就非常可疑了。值得注意的是,即便采用「释放多种流行病及仅在组合后才具危险性的化学物质」等高级手段,也能被检测到。
别忘了,我们讨论的是《AI 2027》的假设:到 2030 年,纳米机器人和戴森球被列为「新兴技术」。这意味着效率将大幅提升,也让上述应对措施的广泛部署更值得期待。尽管在 2025 年的今天,人类行动迟缓、惰性十足,大量政府服务仍依赖纸质办公。如果世界上最强大的 AI 能在 2030 年前将森林与田野改造成工厂和太阳能农场,那么世界上第二强大的 AI 也能在 2030 年前为我们的建筑安装大量传感器、灯具和过滤器。
但我们不妨进一步沿用《AI 2027》的假设,进入纯粹的科幻场景:
· 体内(鼻子、口腔、肺部)的微观空气过滤;
· 从发现新病原体到微调免疫系统抵御它的自动化流程,可立即应用;
· 若「意识上传」可行,只需将整个身体替换为特斯拉 Optimus 或 Unitree 机器人;
· 各种新制造技术(在机器人经济中很可能会得到超级优化)将能在本地生产远多于当前的防护设备,无需依赖全球供应链。
在这个癌症和衰老问题将在 2029 年 1 月得到治愈,且技术进步持续加速的世界里,到 2030 年中期,如果说我们没有能实时生物打印并注射物质以保护人体免受任意感染(及毒物)的可穿戴设备,这实在令人难以置信。
上述生物防御论点未涵盖「镜像生命」和「蚊子大小的杀人无人机」(《AI 2027》场景预测 2029 年开始出现)。但这些手段无法实现《AI 2027》所描述的那种突然的「干净利落的胜利」,且直观来看,针对它们的对称防御要容易得多。
因此,生物武器实际上不太可能以《AI 2027》场景所描述的方式彻底毁灭人类。当然,我所描述的所有结果也远非人类的「干净利落的胜利」。无论我们做什么(或许「将意识上传至机器人」除外),全面的 AI 生物战争仍将极其危险。然而,达到「人类干净利落胜利」的标准并非必需:只要攻击有较高概率部分失败,就足以对已在世界占据强势地位的 AI 形成有力威慑,阻止其尝试任何攻击。当然,AI 发展的时间线越长,这类防御手段就越有可能充分发挥作用。
结合生物武器与其他攻击手段呢?
上述应对措施要成功,需满足三个前提:
· 世界物理安全(包括生物与反无人机安全)由地方当局(人类或 AI)管理,且并非全是 Consensus-1(《AI 2027》场景中最终控制世界并毁灭人类的 AI 名称)的傀儡;
· Consensus-1 无法入侵其他国家(或城市、其他安全区域)的防御系统并立即使其失效;
· Consensus-1 未控制全球信息领域到无人愿意尝试自卫的程度。
直观来看,前提(1)的结果可能走向两个极端。如今,一些警察部队高度集中,拥有强大的国家指挥体系,另一些则是地方化的。若物理安全必须快速转型以适应 AI 时代的需求,格局将彻底重置,新结果将取决于未来几年的选择。各国政府可能会偷懒,都依赖 Palantir;也可能主动选择结合本地开发与开源技术的方案。在此,我认为我们需要做出正确选择。
许多关于这些话题的悲观论述假设(2)和(3)已无药可救。因此,我们来详细分析这两点。
网络安全的末日远未到来
公众与专业人士普遍认为,真正的网络安全不可能实现,我们最多只能在漏洞被发现后迅速修补,并通过囤积已发现的漏洞来威慑网络攻击者。或许,我们能做的最好情况是《太空堡垒卡拉狄加》式的场景:几乎所有人类飞船都被赛昂人的网络攻击同时瘫痪,仅存的飞船因未使用任何联网技术而幸免于难。我不认同这一观点。相反,我认为网络安全的「终局」是对防御方有利的,且在《AI 2027》所假设的技术快速发展下,我们能实现这一终局。
一种理解方式是采用 AI 研究人员最喜欢的技术:趋势外推。以下是基于 GPT 深度研究调查的趋势线,假设采用顶级安全技术,每千行代码的漏洞率随时间变化如下。
此外,我们已看到沙盒技术及其他隔离和最小化可信代码库的技术在开发和消费者普及方面取得显著进步。短期内,攻击者独有的超级智能漏洞发现工具能找到大量漏洞。但如果用于发现漏洞或形式化验证代码的高度智能代理是公开可用的,那么自然的最终平衡将是:软件开发人员在发布代码前,通过持续集成流程发现所有漏洞。
我可以看到两个令人信服的理由,说明为什么即使在这个世界上,漏洞也无法完全消灭:
· 缺陷源于人类意图本身的复杂性,因此主要困难在于构建足够准确的意图模型,而非代码本身;
· 非安全关键组件,我们可能会延续消费科技领域的既有趋势:通过编写更多代码来处理更多任务(或降低开发预算),而非以不断提高的安全标准完成相同数量的任务。
然而,这些类别都不适用于「攻击者能否获取维持我们生命的系统的 root 权限」这类情况,而这正是我们所讨论的核心。
我承认,我的观点比当前网络安全领域的聪明人所持的主流观点更乐观。但即便你在当今世界的背景下不同意我的观点,也值得记住:《AI 2027》场景假设存在超级智能。至少,如果「1 亿个超级智能副本以 2400 倍人类速度思考」都无法让我们获得没有这类缺陷的代码,那么我们绝对应该重新评估超级智能是否如作者想象的那样强大。
在某种程度上,我们不仅需要大幅提高软件安全标准,还需要提升硬件安全标准。IRIS 是当前改善硬件可验证性的一项努力。我们可以以 IRIS 为起点,或创造更好的技术。实际上,这可能涉及「构造正确」的方法:关键组件的硬件制造流程特意设计了特定的验证环节。这些都是 AI 自动化将大幅简化的工作。
超级说服力的末日也远未到来
如前所述,防御能力大幅提升可能仍无济于事的另一种情况是:AI 说服了足够多的人,让他们认为无需防御超级智能 AI 的威胁,且任何试图为自己或社区寻找防御手段的人都是罪犯。
我一直认为,有两件事能提高我们抵抗超级说服力的能力:
· 一个不那么单一的信息生态系统。可以说,我们已逐渐进入后推特时代,互联网正变得更加碎片化。这是好事(即便碎片化过程是混乱的),我们总体上需要更多的信息多极化。
· 防御性 AI。个人需要配备本地运行的、明确忠于自己的 AI,以平衡他们在互联网上看到的黑暗模式和威胁。这类想法已有零星试点(如台湾的「消息检查器」应用,在手机上进行本地扫描),且有自然市场可进一步测试这些想法(如保护人们免受诈骗),但这方面需要更多努力。
从上到下:URL 检查、加密货币地址检查、谣言检查。这类应用可以变得更个性化、用户自主且功能更强大。
这场较量不应是超级智能的超级说服者与你的对抗,而应是超级智能的超级说服者对抗你加上一个稍弱但仍属超级智能的、为你服务的分析器。
这是应该发生的情况。但它真的会发生吗?在《AI 2027》场景假设的短时间内,要实现信息防御技术的普及是一个非常困难的目标。但可以说,更温和的里程碑就足够了。如果集体决策最为关键,且如《AI 2027》场景所示,所有重要事件都发生在一个选举周期内,那么严格来说,重要的是让直接决策者(政客、公务员、部分企业的程序员及其他参与者)能使用良好的信息防御技术。这在短期内相对更易实现,且根据我的经验,许多这类人士已习惯与多个 AI 交流以辅助决策。
启示
在《AI 2027》的世界里,人们想当然地认为,超级人工智能能够轻松迅速地消灭剩余人类已成定局,因此我们唯一能做的就是尽力确保领先的 AI 是仁慈的。在我看来,实际情况要复杂得多:领先 AI 是否强大到能轻松消灭剩余人类(及其他 AI),这一问题的答案仍有很大争议,且我们可以采取行动来影响这一结果。
如果这些论点正确,它们对当今政策的启示有时与「主流 AI 安全准则」相似,有时则不同:
延缓超级智能 AI 的发展仍是好事。超级智能 AI 在 10 年后出现比 3 年后更安全,30 年后出现则更安全。给人类文明更多准备时间是有益的。
如何做到这一点是一个难题。我认为,美国提议的「10 年禁止州级 AI 监管」被否决总体上是好事,但尤其在 SB-1047 等早期提案失败后,下一步行动方向变得不太明确。我认为,延缓高风险 AI 发展的侵入性最小、最稳健的方式可能涉及某种规范最先进硬件的条约。实现有效防御所需的许多硬件网络安全技术,也有助于验证国际硬件条约,因此这里甚至存在协同效应。
尽管如此,值得注意的是,我认为风险的主要来源是与军事相关的行为体,他们会极力争取豁免于这类条约;这绝不能被允许,若最终他们获得豁免,那么仅由军方推动的 AI 发展可能会增加风险。
让 AI 更可能做好事、更少可能做坏事的协调工作仍是有益的。主要例外情况(且一直如此)是:协调工作最终演变为提升能力。
提高 AI 实验室透明度的监管仍是有益的。激励 AI 实验室规范行为能降低风险,而透明度是实现这一目标的好方法。
「开源有害」的心态变得更具风险。许多人反对开放权重 AI,理由是防御不现实,唯一的光明前景是让拥有良好 AI 的好人比任何不那么善意的人先实现超级智能,获得任何极具危险性的能力。但本文的论点描绘了不同的图景:防御不现实,恰恰是因为某一行为体远远领先,而其他行为体没有跟上。技术扩散以维持力量平衡变得重要。但同时,我绝不会认为,仅仅因为是以开源方式进行,加速前沿 AI 能力的增长就是好事。
美国实验室中「我们必须击败中国」的心态变得更具风险,原因类似。如果霸权不是安全缓冲,而是风险来源,那么这进一步反驳了(不幸的是太常见的)「有善意的人应加入领先 AI 实验室,帮助其更快获胜」的观点。
「公共 AI」等倡议更应得到支持,既要确保 AI 能力的广泛分布,也要确保基础设施行为体确实拥有工具,能迅速以本文所述的某些方式应用新的 AI 能力。
防御技术应该更多地体现「武装绵羊」的理念,而不是「猎杀所有狼」的理念。关于脆弱世界假说的讨论常常假设,唯一解决方案是霸权国家维持全球监控,以防止任何潜在威胁出现。但在非霸权世界中,这并非可行方法,且自上而下的防御机制很容易被强大的 AI 颠覆,转化为攻击工具。因此,更大的防御责任需要通过艰苦的努力来实现,从而降低世界的脆弱性。
上述论点仅供推测,不应基于这些论点几乎确定的假设而采取行动。但《AI 2027》的故事也具有推测性,我们应避免基于「其具体细节近乎确定」的假设采取行动。
我尤其担心一种常见假设:建立一个 AI 霸权,确保其「结盟」并「赢得竞赛」,是唯一的前进道路。在我看来,这种策略很可能会降低我们的安全性——尤其是在霸权与军事应用深度绑定的情况下,这会使许多结盟策略的有效性大打折扣。一旦霸权 AI 出现偏差,人类将失去所有制衡手段。
在《AI 2027》场景中,人类的成功取决于美国在关键时刻选择安全而非毁灭之路——自愿放缓 AI 进展,确保 Agent-5 的内部思维过程可被人类解读。即便如此,成功也非必然,而且人类如何摆脱依赖于单一超级智能思维的持续生存悬崖也尚不明朗。无论未来 5-10 年 AI 如何发展,承认「降低世界脆弱性是可行的」并投入更多精力,用人类最新技术实现这一目标,都是值得尝试的道路。
特别感谢 Balvi 志愿者的反馈与审阅。
原文链接