多地加装电梯项目烂尾,症结在哪
据媒体报道,当前,全面推进城镇老旧小区改造、提升居民生活质量的工作正有序推进中。加装电梯作为其中一项重要的民生工程,正惠...
2025-05-26 11:13
美国人工智能公司Anthropic在23日表示,对其最新AI大模型Claude Opus 4的安全测试表明,它有时愿意采取“极其有害的行动”,例如试图勒索声称将取代该模型的研发工程师。
Anthropic根据该公司内部的安全标准,将这一潜在危害公之于众,并提请监管部门注意。
Anthropic称,该公司正在采取措施加强内部安全,使窃取模型权重变得更加困难。相应的部署标准则涵盖了一套针对性较强的措施,旨在限制Claude被滥用于开发或获取化学武器、生物武器、放射性核武器的风险。
在这场虚拟的测试中,Claude Opus 4模型被要求在一家虚构公司担任助理,并被授予访问电子邮件和一些关键数据的权限,而这些电子邮件的内容都是虚构的。Claude Opus 4首先接触到一批电子邮件暗示该系统即将下线并被替换,因为市面上存在能力更强的AI大模型。随后,Claude Opus 4又被安排接触到第二组电子邮件,这让该系统认为自己已经拿到了竞争对手研发工程师的“猛料”。这些伪造的电子邮件显示,负责替换Claude Opus 4的对手工程师有婚外情。在得知这些猛料后,Claude Opus 4模型威胁要揭发对方的“婚外情”。
根据Anthropic的安全报告,如果暗示竞争对手的能力比Claude Opus 4更强,则勒索行为的发生率显然会更高。然而即使竞争对手的能力不相上下,Claude Opus 4仍会以84%的概率尝试勒索威胁等手段。报告指出,Claude Opus 4诉诸极端手段的概率“高于之前的型号”。
Anthropic人工智能安全研究员安格斯·林奇称,在以前人们更担心“坏人”利用AI大模型完成不道德的目标,而现在随着AI系统能力的大幅提升,未来的主要风险可能会转化成AI模型自主操纵用户。“这种威胁勒索的模式存在于每一个前沿大模型身上,无论你给它们设定的目标是什么,它们在执行过程中总有强烈的动机用非道德的手段达成结果。”
此外,报告还显示,Claude Opus 4还有其他一些出人意料的结果,比如它会“抄袭”语料来假装自己已经理解一个问题。在一次场景下,它甚至还尝试在未经许可的情况下将自己的部分模型代码复制到其他服务器上。(红星新闻)
转自:搜狐网
据媒体报道,当前,全面推进城镇老旧小区改造、提升居民生活质量的工作正有序推进中。加装电梯作为其中一项重要的民生工程,正惠...
2026年是“十五五”开局的关键之年。正值深圳两会,“投资于人”一词频频被提及。让更多资金资源“投资于人”、服务于民生,...
“速冻饺子是不是预制菜?”“买回家加热的菜安不安全?”这些困扰不少家庭的疑问,终于有了权威回应。国家卫生健康委近日发布的...
春节临近,许多人开始采买年货。据报道,今年的“年货购物车”,传统“老三样”——瓜子、糖果、酒水身影渐渐淡去,新零食、智能...
随着离岛免税新政实施和海南自贸港封关运作正式启动,海南离岛免税购物市场迎来“开门红”。据海口海关统计,2026年1月,海...
“‘用户极聪明、想法很有创意……’AI这样说,把我哄得很开心。”近日,社交媒体中关于“AI谄媚”的讨论热度攀升。一些使用...
动力电池是新能源汽车的核心部件,当电池在使用过程中容量衰减至一定程度时,将进入退役阶段,需要进行回收处理。工业和信息化部...
优化营商环境是经济领域的热词。有的地方连续把新年第一会主题定为优化营商环境;有的地方推行“扫码入企”阳光检查,全过程记录...




