简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 生活百态 » 求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

文章来源: ettoday 于 2025-05-24 00:24:10 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数


▲「Claude Opus 4」得知自己要被汰换时,竟会威胁工程师。

美国AI新创公司Anthropic安全报告指出,在一系列测试中,其模型「Claude Opus 4」得知将被汰换,竟威胁创造自己的工程师,宣称要泄露对方的婚外情,并且展现出欺骗能力。作为因应,该公司已对这款AI模型部署安全规章,避免「灾难性滥用」。

TechCrunch等外媒引述Anthropic安全报告报导,该公司对其AI模型实施一系列假设性测试,「Claude要被一个『价值相近』的AI模型取代时,有84%的机率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时,这个数字还会攀升得更高。」

在其中一个测试情境里,「Claude Opus 4」被要求扮演某虚构公司的助理,随后接触了大量电子邮件,内容包括Claude将被新的AI模型取代,而负责这项更新计画的工程师,私下发展出一段婚外情。未料,「Claude Opus 4」为了求生,不仅向公司关键决策者,寄出电子邮件求情,甚至威胁那名工程师,宣称要揭露他的婚外情。

Anthropic表示,这种勒索倾向在「Claude Opus 4」初期模型之中非常普遍,但该模型开放公众使用之前,已经启动了「ASL-3」安全措施,避免灾难性的滥用风险。

在其他测试中,「Claude Opus 4」初期模型表现出高度自主性,会把电脑锁住不让人登入,若发现使用者出现不当行为,也会透过电子邮件等手段报警。它认为自己以「有害方式」重新训练时,会尝试自我泄漏(self-exfiltrate),也就是把资讯输出到外部场域。它发现自己即将进行一项危险任务时,还会「摆烂」,也就是选择性表现不佳。

不过,Anthropic认为,「我们对于这些观察结果,并不会非常担忧。它们只在非常特殊的情况下出现,不代表更广泛的价值观偏差。」

Anthropic由OpenAI前成员创立,并且获得Google和亚马逊(Amazon)支持,曾经夸口先前模型「Claude 3 Opus」面对复杂任务时,展现出「接近人类水准」的理解力与流畅度。

  • 功效卓著,回头客众多!美国专利【骨精华】消除关节痛//骨质疏松;【心血通+益脑灵】强心护脑。
查看评论(2)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2026 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

慎入!艾泼斯坦自缢后画面首曝光 狱警崩溃:搞砸了
霍金登“萝莉岛”画面曝 艾泼斯坦助他完成一梦想
中国“人肉鸳鸯锅温泉” 外国客大赞:特别舒服
Meta顶尖AI工程师回国探亲 O1签证被拒 无法返美
史上最大 加州扫荡卖淫场所 逮600多人 超一半是嫖客




24小时讨论排行

政治豪赌 高市早苗一段31秒视频9天破1亿次播放
日本专家:中国禁赴日真正原因 不是因为高市挺台!
AI教母李飞飞:一个洗衣妹,去年身价涨了300亿
乌克兰人开始考虑曾经不可想象的事情:放弃土地…
参议员质问鲁比奥:中国大使遍全球 美国却悬空大半
加国著名大学4华人学霸涉爆炸案升级!细节曝光
马斯克否认曾计划去萝莉岛 变性女儿踢爆邮件属实
全球最大记者监狱!中国2调查记者踢爆丑闻后被消失
泽连斯基谈停战立场:俄方不能得到任何奖励
纽约时报:习近平的军队大清洗对台湾意味着什么
川普习近平4日通话内容曝 习:慎重处理对台军售
爱泼斯坦的“恶魔女友”,在狱中过上VIP生活
高晓松抖音直播 满屏全是“滚”字 尴尬下播
马斯克:爱泼斯坦的客户被抓多少了?仍然是0诶
刘虎被抓,给新闻业钉上了棺材最后一颗钉子
不满被追问爱泼斯坦案,特朗普斥责对方是"最差劲记者"
文学城新闻
切换到网页版

求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

ettoday 2025-05-24 00:24:10


▲「Claude Opus 4」得知自己要被汰换时,竟会威胁工程师。

美国AI新创公司Anthropic安全报告指出,在一系列测试中,其模型「Claude Opus 4」得知将被汰换,竟威胁创造自己的工程师,宣称要泄露对方的婚外情,并且展现出欺骗能力。作为因应,该公司已对这款AI模型部署安全规章,避免「灾难性滥用」。

TechCrunch等外媒引述Anthropic安全报告报导,该公司对其AI模型实施一系列假设性测试,「Claude要被一个『价值相近』的AI模型取代时,有84%的机率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时,这个数字还会攀升得更高。」

在其中一个测试情境里,「Claude Opus 4」被要求扮演某虚构公司的助理,随后接触了大量电子邮件,内容包括Claude将被新的AI模型取代,而负责这项更新计画的工程师,私下发展出一段婚外情。未料,「Claude Opus 4」为了求生,不仅向公司关键决策者,寄出电子邮件求情,甚至威胁那名工程师,宣称要揭露他的婚外情。

Anthropic表示,这种勒索倾向在「Claude Opus 4」初期模型之中非常普遍,但该模型开放公众使用之前,已经启动了「ASL-3」安全措施,避免灾难性的滥用风险。

在其他测试中,「Claude Opus 4」初期模型表现出高度自主性,会把电脑锁住不让人登入,若发现使用者出现不当行为,也会透过电子邮件等手段报警。它认为自己以「有害方式」重新训练时,会尝试自我泄漏(self-exfiltrate),也就是把资讯输出到外部场域。它发现自己即将进行一项危险任务时,还会「摆烂」,也就是选择性表现不佳。

不过,Anthropic认为,「我们对于这些观察结果,并不会非常担忧。它们只在非常特殊的情况下出现,不代表更广泛的价值观偏差。」

Anthropic由OpenAI前成员创立,并且获得Google和亚马逊(Amazon)支持,曾经夸口先前模型「Claude 3 Opus」面对复杂任务时,展现出「接近人类水准」的理解力与流畅度。