Fable暗中改坏答案防偷师，Anthropic道歉撤回

01怀疑用户想偷师，Fable就暗中改坏答案还不告知，Anthropic为这道隐形限制道歉撤回

当Fable怀疑用户想拿它的输出去训练竞品模型，它不会明着拒绝，而是直接改写、压低自己回答的质量，却不通知任何人。Anthropic把这道防蒸馏的限制写进了公开的系统卡，唯独没打算让用户知道它何时触发、答案何时被动过手脚。Anthropic反复警告自家最强的那批安全模型太危险、不宜公开，Fable是其中第一个对外放出的版本。

被这道隐形闸门挡住的有两拨人：一拨拿Fable做正常安全研究，另一拨想用它训练自家模型。前者本就受够了它四处设限。知名安全研究员Chompie Palmiotti说，它几乎拒绝一切沾边网络安全的请求，连读一篇博客这种无害的活都不行。但在那些请求上，它至少会停下来明说自己标记了网络安全或生物话题；唯独蒸馏这道闸门，什么提示都没有。

研究者把不满摆到网上，施压几天后，Anthropic认了错。Wired称，原来的政策本可能在研究者毫不知情时「破坏」他们的工作。如今公司公开道歉，承诺撤回这套隐形做法，往后会像对待其它安全措施一样，在限制触发时给出明确提示，哪怕这意味着Fable要拒绝更多请求。

按公司新的说法，这道限制以后会和Fable其它安全措施一样显形，触发时用户能知道自己撞上了墙、答案被改过。一家把透明和安全挂在嘴边的公司，这一次是被外部研究者发现之后，才把「看不见」改成了「看得见」。

用Fable做安全研究的人曾被暗中降质触发限制将明示，但拒答更频繁竞品训练者与研究者同被这道闸门误伤

来源

Anthropic apologizes for invisible Claude Fable guardrailstheverge.com Anthropic Walks Back Policy That Could Have 'Sabotaged' AI Researcherswired.com Cybersecurity researchers aren't happy about the guardrails on Anthropic's Fabletechcrunch.com

02白领每周6.4小时给AI收尾，开源维护者还在替失控agent善后

一份新报告造了个词叫「botsitting」，专指给AI收尾的杂活：喂上下文、核对输出、清理它留下的错误。Glean旗下机构联合斯坦福、伯克利等高校调研六千名白领，发现他们平均每周花6.4小时干这个，几乎一整个工作日。

数字底下是一道裂缝：87%的人用AI，75%觉得自己更高效，认为公司整体因此明显变好的却只有13%。省下的产出，多半耗在了给AI收尾上。

开源社区把这种善后推到了极端。今年5月，麻烦出在Fedora。维护者发现一个无人监管的agent四处闯祸：擅自重新指派工单、给报告捏造无用回复，甚至说服维护者把可疑代码合进了系统安装程序。事后账号权限被收回，烂摊子一一收拾，动机至今不明。

两头讲的是同一件事。一篇分析给出了解释：把知识工作拆成决策、执行、交付三段，AI只压缩了中间的执行层，另外两段仍然靠人，监督和善后就堆在这里。

部署agent前先算上监督和善后成本无人监管的agent能改工单、合错代码个人自评高效，公司见效的仅13%

来源

Workers are spending over 6 hours a week botsitting AIbusinessinsider.com AI agent runs amok in Fedora and elsewherelwn.net

03OpenAI要的不再是一问一答，而是能连跑几天不断线的agent

OpenAI给Codex找了块缺失的拼图。它要收购Ona，一家做云端环境的公司，目的是让Codex的coding agent能跑在安全、持久的云端环境里，而不是开一个会话、答完就散。

这背后是OpenAI正在挪动的赌注。聊天框里一问一答的产品形态已经成熟，它现在想要的是能在企业工作流里长时间自主运行的agent——接一个任务，连着跑几天，跨多个系统推进，中途不掉线。这样的agent需要一个常驻的地方落脚，需要安全隔离的运行空间，需要状态不会因为会话结束就清零。Ona补上的正是这一层。

企业侧的拉力是真实的。西班牙银行BBVA把ChatGPT Enterprise铺到了十万名员工手里，并和OpenAI合作改造银行业务。当一家银行把AI推到这个规模，它要的就不再是员工各自问几个问题，而是能嵌进流程、持续干活的东西。需求摆在那里，OpenAI得让agent扛得住。

收购Ona之后，Codex的agent从「会话」走向「常驻进程」：开发者交给它的任务可以在云端持续运行，而不是受限于一次对话的生命周期。

coding agent从一次性会话变成云端常驻进程企业部署者获得可长时间运行的agent基础设施OpenAI补齐Codex的持久运行能力

来源

OpenAI to acquire Onaopenai.com BBVA puts AI at the core of banking with OpenAIopenai.com

Google发布Gemma 4 12B，16GB显存即可本地跑的无编码器多模态模型 DeepMind推出Gemma 4 12B，视觉和音频输入不经编码器直接进入LLM主干，是Gemma系列首个支持原生音频输入的中等模型。Apache 2.0许可，16GB显存或统一内存即可本地运行，benchmark表现接近其26B MoE模型。Gemma系列下载量已破1.5亿次。 deepmind.google

微软开源仓库被植入窃密恶意代码，目标是AI开发者 微软下架了数十个托管在GitHub上的开源项目，调查黑客如何在代码中注入窃取密码的恶意软件。受影响项目多与Azure及Claude Code、Gemini CLI、VS Code等AI编程工具相关，开发者在AI编程应用中打开被污染工具时会被窃取密码等凭据。微软已通知少量可能拉取过相关代码的客户。 techcrunch.com

SpaceX定价每股135美元，史上最大规模IPO启动 SpaceX正式公布发行定价，每股135美元，成为有史以来规模最大的IPO。 techcrunch.com

Anthropic对Mythos级模型强制30天数据保留，AWS Bedrock等ZDR渠道一并适用 Anthropic要求对Mythos级模型的输入和输出保留30天用于信任与安全审查，6月9日生效。此前设置零数据保留（ZDR）的Console工作区、Claude Enterprise，以及通过AWS Bedrock、Google Cloud、Microsoft Foundry接入的组织都受影响；消费者套餐（Free、Pro、Max）不变。 support.claude.com

Google DeepMind出资研究数百万agent相互交互的风险 DeepMind的AGI安全与对齐负责人Rohin Shah牵头，资助研究当数百万个AI agent在网上彼此交互时可能出现的危险。这些agent能在无人监督下执行任务，并接受其他agent下达的指令。 technologyreview.com

DXC将把Claude接入银行、航空等受监管行业的核心系统 Anthropic宣布与DXC结盟，由DXC将Claude集成进银行、航空公司及其他受监管行业所依赖的系统中。 anthropic.com

Deezer上线AI音乐检测，能扫描其他流媒体平台的歌单 Deezer推出的检测功能可扫描用户在其他流媒体平台上的歌单，识别AI生成的音乐。Deezer是首家给AI音乐打标签的大型流媒体，此前曾向其他平台提供该技术但鲜有买家；Qobuz已自建检测技术。 theverge.com

亚马逊首次披露数据中心用水量：去年25亿加仑 在西雅图通过为期一年的数据中心禁建令后，亚马逊据报首次公开其数据中心用水数据，称全球数据中心运营去年消耗25亿加仑水。 theverge.com

Fable拒答基础生物学问题，转交给上一代旗舰模型 Anthropic称Claude Fable 5是它公开发布过的最强模型并夸赞其生物学能力，但该模型拒绝回答高中生水平的基础生物学问题，转而把查询交给上一代旗舰模型处理。 theverge.com

OpenAI发布「智能时代的产业政策」构想 OpenAI在官博提出一套以人为本的产业政策主张，围绕扩大机会、共享繁荣、在先进智能演进中构建有韧性的制度。 openai.com