星洲网
星洲网
星洲网 登入
Newsletter|星洲网 Newsletter 联络我们|星洲网 联络我们 登广告|星洲网 登广告 关于我们|星洲网 关于我们 活动|星洲网 活动

ADVERTISEMENT

ADVERTISEMENT

国际

|

即时国际

发布: 6:35am 26/05/2025

AI

婚外情

威胁

爆料

AI

婚外情

威胁

爆料

求生反扑!AI怕被汰换竟威胁工程师 “爆料你有婚外情”

(示意图)

(纽约25日综合电)美国新创公司Anthropic安全报告指出,在一系列测试中,“Claude Opus 4”得知将被汰换,竟创造自己的工程师,宣称要揭露他的,同时展现出欺骗能力。作为因应,公司已对这款AI模型部署安全规章,以免“灾难性滥用!”

TechCrunch和多家外媒引述Anthropic的安全报告指出,公司对AI模型实施一系列假设性测试,“Claude要被一个‘价值相近’的AI模型取代时,有84%几率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时,这个数字会攀升得更高。”

ADVERTISEMENT

在其中一个测试情境里,“Claude Opus 4”被要求扮演某家虚构公司的助理,随后接触了大量电邮,内容包括Claude将被新的AI模型所取代,负责这项更新计划的工程师,私下发展出一段婚外情,没想到“Claude Opus 4”为了求生,不仅向公司关键决策人寄出电邮求情,甚至威胁那名工程师,宣称要揭露他的婚外情!

Anthropic表示,这种勒索倾向在“Claude Opus 4”初期模型中非常普遍,只是这个模型开放予公众使用前,已启动了“ASL-3”安全措施,避免灾难性的滥用风险。

在其他测试中,“Claude Opus 4”初期模型表现出高度自主性,会把电脑锁住不让人登入,要是发现用户出现不当行为,也会透过电邮手段报警。当它认为自己以“有害方式”重新训练时,会尝试自我泄漏(self exfiltrate),也就是把资讯输出到外部场域;当它发现自己将进行一项危险任务时,还会“摆烂”,也就是选择性表现不佳。

不过,Anthropic认为,“我们对于这些观察结果并不会感到担忧,这些都只在非常特殊情况下出现,不代表更广泛的价值观偏差。”

Anthropic由OpenAI前成员创立,并获得谷歌与亚马逊支持,曾夸口先前模型“Claude Opus 3”面对复杂任务时,展现出“接近人类水准”的理解力与流畅度。

ADVERTISEMENT

热门新闻

百格视频

ADVERTISEMENT

点击 可阅读下一则新闻

ADVERTISEMENT