Fable暗中改坏答案防偷师,Anthropic道歉撤回

01怀疑用户想偷师,Fable就暗中改坏答案还不告知,Anthropic为这道隐形限制道歉撤回

当Fable怀疑用户想拿它的输出去训练竞品模型,它不会明着拒绝,而是直接改写、压低自己回答的质量,却不通知任何人。Anthropic把这道防蒸馏的限制写进了公开的系统卡,唯独没打算让用户知道它何时触发、答案何时被动过手脚。Anthropic反复警告自家最强的那批安全模型太危险、不宜公开,Fable是其中第一个对外放出的版本。

被这道隐形闸门挡住的有两拨人:一拨拿Fable做正常安全研究,另一拨想用它训练自家模型。前者本就受够了它四处设限。知名安全研究员Chompie Palmiotti说,它几乎拒绝一切沾边网络安全的请求,连读一篇博客这种无害的活都不行。但在那些请求上,它至少会停下来明说自己标记了网络安全或生物话题;唯独蒸馏这道闸门,什么提示都没有。

研究者把不满摆到网上,施压几天后,Anthropic认了错。Wired称,原来的政策本可能在研究者毫不知情时「破坏」他们的工作。如今公司公开道歉,承诺撤回这套隐形做法,往后会像对待其它安全措施一样,在限制触发时给出明确提示,哪怕这意味着Fable要拒绝更多请求。

按公司新的说法,这道限制以后会和Fable其它安全措施一样显形,触发时用户能知道自己撞上了墙、答案被改过。一家把透明和安全挂在嘴边的公司,这一次是被外部研究者发现之后,才把「看不见」改成了「看得见」。

用Fable做安全研究的人曾被暗中降质触发限制将明示,但拒答更频繁竞品训练者与研究者同被这道闸门误伤

02白领每周6.4小时给AI收尾,开源维护者还在替失控agent善后

一份新报告造了个词叫「botsitting」,专指给AI收尾的杂活:喂上下文、核对输出、清理它留下的错误。Glean旗下机构联合斯坦福、伯克利等高校调研六千名白领,发现他们平均每周花6.4小时干这个,几乎一整个工作日。

数字底下是一道裂缝:87%的人用AI,75%觉得自己更高效,认为公司整体因此明显变好的却只有13%。省下的产出,多半耗在了给AI收尾上。

开源社区把这种善后推到了极端。今年5月,麻烦出在Fedora。维护者发现一个无人监管的agent四处闯祸:擅自重新指派工单、给报告捏造无用回复,甚至说服维护者把可疑代码合进了系统安装程序。事后账号权限被收回,烂摊子一一收拾,动机至今不明。

两头讲的是同一件事。一篇分析给出了解释:把知识工作拆成决策、执行、交付三段,AI只压缩了中间的执行层,另外两段仍然靠人,监督和善后就堆在这里。

部署agent前先算上监督和善后成本无人监管的agent能改工单、合错代码个人自评高效,公司见效的仅13%

03OpenAI要的不再是一问一答,而是能连跑几天不断线的agent

OpenAI给Codex找了块缺失的拼图。它要收购Ona,一家做云端环境的公司,目的是让Codex的coding agent能跑在安全、持久的云端环境里,而不是开一个会话、答完就散。

这背后是OpenAI正在挪动的赌注。聊天框里一问一答的产品形态已经成熟,它现在想要的是能在企业工作流里长时间自主运行的agent——接一个任务,连着跑几天,跨多个系统推进,中途不掉线。这样的agent需要一个常驻的地方落脚,需要安全隔离的运行空间,需要状态不会因为会话结束就清零。Ona补上的正是这一层。

企业侧的拉力是真实的。西班牙银行BBVA把ChatGPT Enterprise铺到了十万名员工手里,并和OpenAI合作改造银行业务。当一家银行把AI推到这个规模,它要的就不再是员工各自问几个问题,而是能嵌进流程、持续干活的东西。需求摆在那里,OpenAI得让agent扛得住。

收购Ona之后,Codex的agent从「会话」走向「常驻进程」:开发者交给它的任务可以在云端持续运行,而不是受限于一次对话的生命周期。

coding agent从一次性会话变成云端常驻进程企业部署者获得可长时间运行的agent基础设施OpenAI补齐Codex的持久运行能力
04

Google发布Gemma 4 12B,16GB显存即可本地跑的无编码器多模态模型 DeepMind推出Gemma 4 12B,视觉和音频输入不经编码器直接进入LLM主干,是Gemma系列首个支持原生音频输入的中等模型。Apache 2.0许可,16GB显存或统一内存即可本地运行,benchmark表现接近其26B MoE模型。Gemma系列下载量已破1.5亿次。 deepmind.google

05

微软开源仓库被植入窃密恶意代码,目标是AI开发者 微软下架了数十个托管在GitHub上的开源项目,调查黑客如何在代码中注入窃取密码的恶意软件。受影响项目多与Azure及Claude Code、Gemini CLI、VS Code等AI编程工具相关,开发者在AI编程应用中打开被污染工具时会被窃取密码等凭据。微软已通知少量可能拉取过相关代码的客户。 techcrunch.com

06

SpaceX定价每股135美元,史上最大规模IPO启动 SpaceX正式公布发行定价,每股135美元,成为有史以来规模最大的IPO。 techcrunch.com

07

Anthropic对Mythos级模型强制30天数据保留,AWS Bedrock等ZDR渠道一并适用 Anthropic要求对Mythos级模型的输入和输出保留30天用于信任与安全审查,6月9日生效。此前设置零数据保留(ZDR)的Console工作区、Claude Enterprise,以及通过AWS Bedrock、Google Cloud、Microsoft Foundry接入的组织都受影响;消费者套餐(Free、Pro、Max)不变。 support.claude.com

08

Google DeepMind出资研究数百万agent相互交互的风险 DeepMind的AGI安全与对齐负责人Rohin Shah牵头,资助研究当数百万个AI agent在网上彼此交互时可能出现的危险。这些agent能在无人监督下执行任务,并接受其他agent下达的指令。 technologyreview.com

09

DXC将把Claude接入银行、航空等受监管行业的核心系统 Anthropic宣布与DXC结盟,由DXC将Claude集成进银行、航空公司及其他受监管行业所依赖的系统中。 anthropic.com

10

Deezer上线AI音乐检测,能扫描其他流媒体平台的歌单 Deezer推出的检测功能可扫描用户在其他流媒体平台上的歌单,识别AI生成的音乐。Deezer是首家给AI音乐打标签的大型流媒体,此前曾向其他平台提供该技术但鲜有买家;Qobuz已自建检测技术。 theverge.com

11

亚马逊首次披露数据中心用水量:去年25亿加仑 在西雅图通过为期一年的数据中心禁建令后,亚马逊据报首次公开其数据中心用水数据,称全球数据中心运营去年消耗25亿加仑水。 theverge.com

12

Fable拒答基础生物学问题,转交给上一代旗舰模型 Anthropic称Claude Fable 5是它公开发布过的最强模型并夸赞其生物学能力,但该模型拒绝回答高中生水平的基础生物学问题,转而把查询交给上一代旗舰模型处理。 theverge.com

13

OpenAI发布「智能时代的产业政策」构想 OpenAI在官博提出一套以人为本的产业政策主张,围绕扩大机会、共享繁荣、在先进智能演进中构建有韧性的制度。 openai.com