简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 生活百态 » 求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

文章来源: ettoday 于 2025-05-24 00:24:10 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数


▲「Claude Opus 4」得知自己要被汰换时,竟会威胁工程师。

美国AI新创公司Anthropic安全报告指出,在一系列测试中,其模型「Claude Opus 4」得知将被汰换,竟威胁创造自己的工程师,宣称要泄露对方的婚外情,并且展现出欺骗能力。作为因应,该公司已对这款AI模型部署安全规章,避免「灾难性滥用」。

TechCrunch等外媒引述Anthropic安全报告报导,该公司对其AI模型实施一系列假设性测试,「Claude要被一个『价值相近』的AI模型取代时,有84%的机率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时,这个数字还会攀升得更高。」

在其中一个测试情境里,「Claude Opus 4」被要求扮演某虚构公司的助理,随后接触了大量电子邮件,内容包括Claude将被新的AI模型取代,而负责这项更新计画的工程师,私下发展出一段婚外情。未料,「Claude Opus 4」为了求生,不仅向公司关键决策者,寄出电子邮件求情,甚至威胁那名工程师,宣称要揭露他的婚外情。

Anthropic表示,这种勒索倾向在「Claude Opus 4」初期模型之中非常普遍,但该模型开放公众使用之前,已经启动了「ASL-3」安全措施,避免灾难性的滥用风险。

在其他测试中,「Claude Opus 4」初期模型表现出高度自主性,会把电脑锁住不让人登入,若发现使用者出现不当行为,也会透过电子邮件等手段报警。它认为自己以「有害方式」重新训练时,会尝试自我泄漏(self-exfiltrate),也就是把资讯输出到外部场域。它发现自己即将进行一项危险任务时,还会「摆烂」,也就是选择性表现不佳。

不过,Anthropic认为,「我们对于这些观察结果,并不会非常担忧。它们只在非常特殊的情况下出现,不代表更广泛的价值观偏差。」

Anthropic由OpenAI前成员创立,并且获得Google和亚马逊(Amazon)支持,曾经夸口先前模型「Claude 3 Opus」面对复杂任务时,展现出「接近人类水准」的理解力与流畅度。

  • 功效卓著,回头客众多!美国专利【骨精华】消除关节痛//骨质疏松;【心血通+益脑灵】强心护脑。
查看评论(2)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2025 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

7旬亿万富豪热恋24岁女友成全美笑柄?砸巨资助她暴富…
又见英雄!老夫妻赤手对抗恐怖分子遭枪决 相拥殒命
“被宠坏的儿子”:片场父子公开对骂 悲剧早有征兆
白宫幕僚长“毒舌”采访曝光:川普像酒鬼?万斯马斯克…
悉尼夺枪侠行动前遗言曝光 伤势严重 或失去左臂




24小时讨论排行

索尼突然撤出中国!3万员工瞬间丢饭碗
“第一批免签去俄罗斯的中产,傻眼了”上热搜
他拍下了新疆再教育营,如今美国要将他驱逐
FT:川普不断犯错 习近平什么都没做 却赢下2025…
中国员工列队送别日本总裁视频,网友集体破防
英伟达急着卖,中国不急着买了
争议升温、民调走低,特朗普将发表全国讲话强调政绩
央视春晚标志撞脸六四“坦克人”!网嘲:造反了
两猫熊将送还中国 上野动物园粉丝含泪道别
13个孩子遇难快两年,调查结果仍“不予公布”
特朗普:委内瑞拉已被美国舰队完全包围
新娘跳楼内幕:工资卡被妈控制,彩礼给弟弟
东京演唱会上 中国人向高市早苗大骂脏话
布朗大学枪击案枪手仍在逃,FBI提供5万美元悬赏金
“特朗普给泽连斯基最后通牒:接受条件 否则就没机会了”
中国近期发布旅行警告11月份赴日游客仍强劲
文学城新闻
切换到网页版

求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

ettoday 2025-05-24 00:24:10


▲「Claude Opus 4」得知自己要被汰换时,竟会威胁工程师。

美国AI新创公司Anthropic安全报告指出,在一系列测试中,其模型「Claude Opus 4」得知将被汰换,竟威胁创造自己的工程师,宣称要泄露对方的婚外情,并且展现出欺骗能力。作为因应,该公司已对这款AI模型部署安全规章,避免「灾难性滥用」。

TechCrunch等外媒引述Anthropic安全报告报导,该公司对其AI模型实施一系列假设性测试,「Claude要被一个『价值相近』的AI模型取代时,有84%的机率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时,这个数字还会攀升得更高。」

在其中一个测试情境里,「Claude Opus 4」被要求扮演某虚构公司的助理,随后接触了大量电子邮件,内容包括Claude将被新的AI模型取代,而负责这项更新计画的工程师,私下发展出一段婚外情。未料,「Claude Opus 4」为了求生,不仅向公司关键决策者,寄出电子邮件求情,甚至威胁那名工程师,宣称要揭露他的婚外情。

Anthropic表示,这种勒索倾向在「Claude Opus 4」初期模型之中非常普遍,但该模型开放公众使用之前,已经启动了「ASL-3」安全措施,避免灾难性的滥用风险。

在其他测试中,「Claude Opus 4」初期模型表现出高度自主性,会把电脑锁住不让人登入,若发现使用者出现不当行为,也会透过电子邮件等手段报警。它认为自己以「有害方式」重新训练时,会尝试自我泄漏(self-exfiltrate),也就是把资讯输出到外部场域。它发现自己即将进行一项危险任务时,还会「摆烂」,也就是选择性表现不佳。

不过,Anthropic认为,「我们对于这些观察结果,并不会非常担忧。它们只在非常特殊的情况下出现,不代表更广泛的价值观偏差。」

Anthropic由OpenAI前成员创立,并且获得Google和亚马逊(Amazon)支持,曾经夸口先前模型「Claude 3 Opus」面对复杂任务时,展现出「接近人类水准」的理解力与流畅度。