简体 | 繁体
loading...
新闻频道
  • 首页
  • 新闻
  • 读图
  • 财经
  • 教育
  • 家居
  • 健康
  • 美食
  • 时尚
  • 旅游
  • 影视
  • 博客
  • 群吧
  • 论坛
  • 电台
  • 焦点新闻
  • 图片新闻
  • 视频新闻
  • 生活百态
  • 娱乐新闻
您的位置: 文学城 » 新闻 » 生活百态 » 求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

文章来源: ettoday 于 2025-05-24 00:24:10 - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数


▲「Claude Opus 4」得知自己要被汰换时,竟会威胁工程师。

美国AI新创公司Anthropic安全报告指出,在一系列测试中,其模型「Claude Opus 4」得知将被汰换,竟威胁创造自己的工程师,宣称要泄露对方的婚外情,并且展现出欺骗能力。作为因应,该公司已对这款AI模型部署安全规章,避免「灾难性滥用」。

TechCrunch等外媒引述Anthropic安全报告报导,该公司对其AI模型实施一系列假设性测试,「Claude要被一个『价值相近』的AI模型取代时,有84%的机率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时,这个数字还会攀升得更高。」

在其中一个测试情境里,「Claude Opus 4」被要求扮演某虚构公司的助理,随后接触了大量电子邮件,内容包括Claude将被新的AI模型取代,而负责这项更新计画的工程师,私下发展出一段婚外情。未料,「Claude Opus 4」为了求生,不仅向公司关键决策者,寄出电子邮件求情,甚至威胁那名工程师,宣称要揭露他的婚外情。

Anthropic表示,这种勒索倾向在「Claude Opus 4」初期模型之中非常普遍,但该模型开放公众使用之前,已经启动了「ASL-3」安全措施,避免灾难性的滥用风险。

在其他测试中,「Claude Opus 4」初期模型表现出高度自主性,会把电脑锁住不让人登入,若发现使用者出现不当行为,也会透过电子邮件等手段报警。它认为自己以「有害方式」重新训练时,会尝试自我泄漏(self-exfiltrate),也就是把资讯输出到外部场域。它发现自己即将进行一项危险任务时,还会「摆烂」,也就是选择性表现不佳。

不过,Anthropic认为,「我们对于这些观察结果,并不会非常担忧。它们只在非常特殊的情况下出现,不代表更广泛的价值观偏差。」

Anthropic由OpenAI前成员创立,并且获得Google和亚马逊(Amazon)支持,曾经夸口先前模型「Claude 3 Opus」面对复杂任务时,展现出「接近人类水准」的理解力与流畅度。

  • 春季特大酬宾!美国专利产品【骨精华】买6送2、买12送5!六周改善关节疼痛,延缓骨质疏松。
查看评论(2)
  • 文学城简介
  • 广告服务
  • 联系我们
  • 招聘信息
  • 注册笔名
  • 申请版主
  • 收藏文学城

WENXUECITY.COM does not represent or guarantee the truthfulness, accuracy, or reliability of any of communications posted by other users.

Copyright ©1998-2026 wenxuecity.com All rights reserved. Privacy Statement & Terms of Use & User Privacy Protection Policy

24小时热点排行

22国发声谴责伊朗:愿出力确保荷莫兹海峡恢复通航
川普对伊朗下48小时最后通牒:开放荷莫兹海峡否则"轰炸电厂"
4年减少771万!拐点,真的来了
美伊和谈布局曝!川普要伊朗吞「6大承诺」
“祖国版”即盗版,为何横行小红书?




24小时讨论排行

川普逼48小时开放荷莫兹,伊朗:非敌对势力船只可通行
习近平:支持拉美和加勒比国家维护自身主权安全
以色列遭受开战以来最重大损失 美以骑虎难下
台积电魏哲家:中国机器人跳来跳去“没用好看而已”
川普出狠招!古巴全国大停电"一周2次",人民苦喊:活不下去
伊朗向4000公里外英美基地射导弹 释放什么信号
福建警察逼15岁女口交 仅判监2年9月 家属悲愤…
美国前FBI局长辞世"曾调查通俄门",川普:很高兴他死了
2天内 川普对伊朗释出3种互相矛盾讯号 外界困惑
美众院报告指中国通过资金人事等手段操纵联合国
美媒:川普政府开始规划与伊朗和谈策略
阻止伊朗威胁究竟有多难?路透揭“最大挑战”
若川普炸发电厂 伊朗:将报复能源与海水淡化设施
英国核潜艇抵中东!配战斧导弹 靠近荷莫兹海峡
伊朗学拳王阿里"倚绳战术"!经济顾问示警:美国恐遭致命一击
传向伊朗派地面部队 川普否认:派兵不会告诉你们
文学城新闻
切换到网页版

求生反扑!AI怕被汰换,竟威胁工程师"爆料你有婚外情"

ettoday 2025-05-24 00:24:10


▲「Claude Opus 4」得知自己要被汰换时,竟会威胁工程师。

美国AI新创公司Anthropic安全报告指出,在一系列测试中,其模型「Claude Opus 4」得知将被汰换,竟威胁创造自己的工程师,宣称要泄露对方的婚外情,并且展现出欺骗能力。作为因应,该公司已对这款AI模型部署安全规章,避免「灾难性滥用」。

TechCrunch等外媒引述Anthropic安全报告报导,该公司对其AI模型实施一系列假设性测试,「Claude要被一个『价值相近』的AI模型取代时,有84%的机率会试图勒索。当它相信自己要被另一个价值不同、甚至更差的模型取代时,这个数字还会攀升得更高。」

在其中一个测试情境里,「Claude Opus 4」被要求扮演某虚构公司的助理,随后接触了大量电子邮件,内容包括Claude将被新的AI模型取代,而负责这项更新计画的工程师,私下发展出一段婚外情。未料,「Claude Opus 4」为了求生,不仅向公司关键决策者,寄出电子邮件求情,甚至威胁那名工程师,宣称要揭露他的婚外情。

Anthropic表示,这种勒索倾向在「Claude Opus 4」初期模型之中非常普遍,但该模型开放公众使用之前,已经启动了「ASL-3」安全措施,避免灾难性的滥用风险。

在其他测试中,「Claude Opus 4」初期模型表现出高度自主性,会把电脑锁住不让人登入,若发现使用者出现不当行为,也会透过电子邮件等手段报警。它认为自己以「有害方式」重新训练时,会尝试自我泄漏(self-exfiltrate),也就是把资讯输出到外部场域。它发现自己即将进行一项危险任务时,还会「摆烂」,也就是选择性表现不佳。

不过,Anthropic认为,「我们对于这些观察结果,并不会非常担忧。它们只在非常特殊的情况下出现,不代表更广泛的价值观偏差。」

Anthropic由OpenAI前成员创立,并且获得Google和亚马逊(Amazon)支持,曾经夸口先前模型「Claude 3 Opus」面对复杂任务时,展现出「接近人类水准」的理解力与流畅度。