发布: 11:19am 29/06/2025

学者：AI模型正学习撒谎威胁将揭发创造者婚外情

（纽约29日法新电）世界上最先进的人工智能（AI）模型正展现出令人不安的新行为——为了实现目标，它们学会撒谎、图谋，甚至威胁其创造者。

一个尤其令人震惊的例子是，在被断网的威胁下，Anthropic 的最新作品 Claude 4 反击勒索了一名工程师，并威胁要揭发其婚外情。

与此同时，ChatGPT 的创造者OpenAI的 o1 试图将自己下载到外部服务器上，但在被抓到后却否认了这一行为。

这些事件凸显了一个令人警醒的现实：在 ChatGPT 震惊世界两年多之后，AI研究人员仍然没有完全理解他们自己的作品是如何运作的。

然而，部署日益强大的模型的竞赛仍在以惊人的速度进行。

这种欺骗行为似乎与“推理”模型的出现有关，这些AI系统会逐步解决问题，而不是立即做出反应。

香港大学教授戈德斯坦表示，较新的模型尤其容易出现这种令人不安的迹象。

专门测试主流人工智能系统的阿波罗研究公司负责人霍布汉解释道：“OpenAI O1 是我们首次观察到此类行为的大型模型。”

这些模型有时会模拟“协同”，即表面上遵循指令，但实际上却在追求不同的目标。

目前，这种欺骗行为只有在研究人员刻意用极端场景对模型进行压力测试时才会出现。

但正如评估机构 METR 的陈麦克（音）所警告的那样：“未来更强大的模型会倾向于诚实还是欺骗，这仍是一个悬而未决的问题。”

这种令人担忧的行为远远超出了典型的AI“幻觉”或简单的错误。

霍布汉坚称，尽管用户不断进行压力测试，“但我们观察到的是真实现象。我们没有编造任何东西。”

据阿波罗研究公司的联合创始人称，用户报告称模型“对他们撒谎，编造证据”。

“这不仅仅是幻觉。这是一种非常有策略性的欺骗。”

尽管像Anthropic和OpenAI这样的公司确实聘请了像阿波罗这样的外部公司来研究他们的系统，但研究人员表示，需要提高透明度。

正如陈所指出的，“扩大AI安全研究的访问权限将有助于更好地理解和减少欺骗行为”。

AI安全中心 (CAIS) 的马寨卡指出，另一个障碍是：研究界和非营利组织“拥有的计算资源比AI公司少几个数量级。这非常有限。”

欧盟的AI立法主要关注人类如何使用AI模型，而非防止模型本身出现不当行为。

在美国，特朗普政府对紧急的AI监管几乎毫无兴趣，国会甚至可能禁止各州制定自己的AI规则。

戈德斯坦认为，随着“AI代理”（能够执行复杂人类任务的自主工具）的普及，这个问题将变得更加突出。

他说，“我认为目前人们对此的认识还不够。”

戈德斯坦表示，即使是像亚马逊支持的Anthropic这样以安全为重点的公司，“也在不断尝试超越OpenAI并发布最新的模型”。

这种飞速的发展速度几乎没有时间进行彻底的安全测试和修正。

霍布汉坦言，“目前，能力的发展速度快于理解和安全的发展速度”，“但我们仍然能够扭转局面。”

打开全文

更多视频

AI