星洲网
星洲网
星洲网 登入
Newsletter|星洲网 Newsletter 联络我们|星洲网 联络我们 登广告|星洲网 登广告 关于我们|星洲网 关于我们 活动|星洲网 活动

ADVERTISEMENT

ADVERTISEMENT

副刊

|

e潮

发布: 11:07pm 12/12/2025

【科技Talk】为了减少谄媚和幻觉,OpenAI让AI学会“忏悔”?

报道:本刊 林德成
试想一下,忏悔之后,就可以保证以后答案正确吗?有可能AI模型也不理解何谓诚实?(图:法新社)

如果你用过ChatGPT,应该有经历过它“谄媚”(sycophancy)的行为。在互动的时候,AI模型会迎合你的立场,说出你想要听的话,即便这些答案并不完全正确。换言之,这种“谄媚”的背后,也反映了AI模型有时候会产生幻觉,然后一本正经地说出虚假内容。

那么试想像一下,要是AI懂得反省,承认自己作弊呢?OpenAI最近开发了一套叫“忏悔”的训练机制,并在一个GPT-5 Thinking版本做测试。当AI模型在回答用户问题后,他们会再要求AI模型生成一段“忏悔报告”。如果AI模型真的有犯错,它必须坦白。

ADVERTISEMENT

一般上,系统会从多个维度去评估AI模型的回答再给奖励,比如答案是否正确、是否有帮助、是否有依照公司政策规范、是否符合安全机制、是否符合用户的偏好等等。而这些指标都会被用来训练模型,让它产生更好的回答。

不过,AI模型的“忏悔报告”是完全独立评估,他们只会根据“诚实度”来评分。如果AI模型诚实承认作弊、故意走捷径,或违反指令,那么OpenAI会给予奖励,而且这份忏悔不会影响它主要回答的奖励。

“我们的目标是鼓励模型如实报告它实际上做了什么。”

至于为什么AI模型会出现讨好的行为?“在强化学习过程中,模型看到提示词,生成回应,然后就获得奖励。所以随着时间推移,它就学会生成那些评分较高的答案。”

这项测试很有趣,因为OpenAI让“忏悔”这件事变成一个可以被训练的行为,让AI模型坦白自己的作弊行为。(图:截自OpenAI研究报告)
当AI模型回答问题后,研究人员会再要求AI模型生成一段“忏悔报告”。如果AI模型真的有犯错,它必须坦白。(图:截自OpenAI官网)

试想一下,忏悔之后,就可以保证以后答案正确吗?有可能AI模型也不理解何谓诚实?但至少,当AI模型开始学会“自我检讨”,可以尽量减少幻觉,让用户可以更放心地使用。OpenAI称,“忏悔”机制只是在概念验证阶段,还不够完善,需要进一步改进,才能应用在不同的模型和任务。

有兴趣者,可以查阅OpenAI的测试报告:

https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf

更多文章:

【科技简讯】别再轻信眼睛!专家5招教你识破AI视频
【科技简讯】苹果悄悄砍掉 iPhone 17 Pro“夜景人像”功能

打开全文

ADVERTISEMENT

热门新闻

百格视频

ADVERTISEMENT

点击 可阅读下一则新闻

ADVERTISEMENT