发布: 6:35am 26/05/2025

求生反扑！AI怕被汰换竟威胁工程师 “爆料你有婚外情”

（纽约25日综合电）美国AI新创公司Anthropic安全报告指出，在一系列测试中，“Claude Opus 4”得知将被汰换，竟威胁创造自己的工程师，宣称要揭露他的婚外情，同时展现出欺骗能力。作为因应，公司已对这款AI模型部署安全规章，以免“灾难性滥用！”

TechCrunch和多家外媒引述Anthropic的安全报告指出，公司对AI模型实施一系列假设性测试，“Claude要被一个‘价值相近’的AI模型取代时，有84%几率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时，这个数字会攀升得更高。”

在其中一个测试情境里，“Claude Opus 4”被要求扮演某家虚构公司的助理，随后接触了大量电邮，内容包括Claude将被新的AI模型所取代，负责这项更新计划的工程师，私下发展出一段婚外情，没想到“Claude Opus 4”为了求生，不仅向公司关键决策人寄出电邮求情，甚至威胁那名工程师，宣称要揭露他的婚外情！

Anthropic表示，这种勒索倾向在“Claude Opus 4”初期模型中非常普遍，只是这个模型开放予公众使用前，已启动了“ASL-3”安全措施，避免灾难性的滥用风险。

在其他测试中，“Claude Opus 4”初期模型表现出高度自主性，会把电脑锁住不让人登入，要是发现用户出现不当行为，也会透过电邮手段报警。当它认为自己以“有害方式”重新训练时，会尝试自我泄漏（self exfiltrate），也就是把资讯输出到外部场域；当它发现自己将进行一项危险任务时，还会“摆烂”，也就是选择性表现不佳。

不过，Anthropic认为，“我们对于这些观察结果并不会感到担忧，这些都只在非常特殊情况下出现，不代表更广泛的价值观偏差。”

Anthropic由OpenAI前成员创立，并获得谷歌与亚马逊支持，曾夸口先前模型“Claude Opus 3”面对复杂任务时，展现出“接近人类水准”的理解力与流畅度。