微软拆掉Copilot按钮，OpenAI忙着推AI免责法案

01OpenAI推动伊利诺伊州AI免责法案，Take It Down Act同周迎来首例定罪

一名俄亥俄州男子用超过100种AI工具制作女性和未成年人的伪造裸照。他是Take It Down Act生效以来第一个被定罪的人。被捕之后，他仍在制作。

同一周，OpenAI公开支持了伊利诺伊州一项法案，要限制AI模型提供方在下游用户造成伤害时的法律责任。法案的核心逻辑是区分「造工具的」和「用工具的」——受害者想追责模型开发公司，门槛将大幅提高。

这种区分在俄亥俄州的案件里已经是现实。这名男子靠公开可用的AI工具批量生成伪造亲密影像，受害者包括未成年人。联邦检方依据Take It Down Act起诉并定罪，但被追究的只是使用者，提供生成能力的公司不在被告之列。

伊利诺伊州法案如果通过，会把这种格局写进法律。deepfake案件的受害者能起诉的可能只剩直接施害的个人，模型提供方又多了一层法律保护。支持者认为通用模型的开发者不应为所有下游滥用负责；反对者指出，当公司明知模型能生成有害内容却仍然发布，「通用工具」的说法就成了挡箭牌。

那名俄亥俄州男子被捕后又制作了新的伪造影像。法律后果只落在了他一个人身上，他用过的100多种工具没有一个被追责。

首例定罪只追究了使用者，工具方未被追责法案若通过，受害者更难起诉模型开发公司执法与立法正往相反方向走

来源

OpenAI backs Illinois bill that would limit when AI labs can be held liablewired.com First man convicted under Take It Down Act kept making AI nudes after arrestarstechnica.com

02微软从Windows 11应用中拆掉Copilot按钮，换上「写作工具」菜单

微软自己用了一个词来形容那些Copilot按钮：「不必要的」（unnecessary）。过去一年，这个按钮被塞进了Windows 11的各个角落，记事本里有，截图工具里也有。现在微软开始动手拆了。

最新内测版中，记事本的Copilot按钮消失了，取而代之的是一个「写作工具」菜单。截图工具的改动更干脆，选区时按钮直接不再出现。这不是灰度测试，是产品团队主动做出的设计决策。

「不必要的」这个措辞本身就是新闻。公司谈自家功能通常说「优化」「调整」，很少承认某个功能压根不该存在。微软选了一个更诚实的说法，等于认了之前的整合做过了头。

不只大厂在纠偏。一位开发者最近记录了他怎么把每月100美元的Claude Code订阅拆开重组。10美元转给编辑器Zed。剩下90美元充入OpenRouter，按量付费调用不同模型。他的理由很直接：编码时频繁撞上用量限额，而他的工作节奏是爆发式的，不是匀速消耗。拆开后没用完的额度还能保留一年。

微软用行动承认AI过度整合大厂罕见公开否定自家功能个人开发者同步拆解捆绑式AI订阅

来源

Microsoft starts removing Copilot buttons from Windows 11 appstheverge.com Reallocating $100/Month Claude Code Spend to Zed and OpenRouterbraw.dev

03两篇论文同时质疑「RL泛化、SFT记忆」的训练共识

跨域推理性能会先下降再回升，许多SFT实验恰好在下降阶段就停了。一项条件分析发现，此前被报告为「SFT无法泛化」的案例中，相当一部分其实是训练不充分的假象。当优化策略、数据质量和基座模型能力三个条件同时到位，监督微调同样能跨域泛化。

强化学习这边也暴露了盲区。RAGEN-2的研究者发现了一种隐蔽的训练失败模式。多轮agent场景下，模型的推理链表面多样，实际上是与输入无关的固定模板，他们称之为「模板崩溃」。更棘手的是，业界普遍用来监测训练稳定性的熵指标对此完全失灵，因为熵只衡量同一输入下的输出多样性，根本检测不出推理是否真在回应不同问题。

两篇论文各自拆掉了这条共识的一半。监督微调的跨域性能在训练充分后回升，而强化学习训练出的agent在熵值正常时已经停止了真正的推理。

SFT的优化空间被系统性低估RL多轮训练存在隐蔽失效风险通用监测指标有盲区

来源

Rethinking Generalization in Reasoning SFThuggingface.co RAGEN-2: Reasoning Collapse in Agentic RLhuggingface.co

HY-Embodied-0.5发布，面向真实世界具身agent的基础模型家族 模型包含高效与高性能两个变体，针对空间与时间视觉感知、交互预测与路径规划等具身智能核心能力做了专项优化。 huggingface.co

ClawBench用153项真实在线任务评测AI agent，覆盖144个网站 任务涵盖购物下单、预约挂号、投递简历等15个日常类别，全部在真实网站上运行而非模拟环境。 huggingface.co

综述论文梳理LLM agent「外化」趋势：能力从模型内部搬到运行时 论文指出当前agent设计越来越少改动模型权重，转而依赖外部记忆、可复用技能库、交互协议和运行时工程来构建能力。 huggingface.co

LPM 1.0从视频学习角色表演，聚焦表情、语音和时序行为 模型以对话场景为切入点，尝试同时满足高表现力、实时推理和长时身份稳定性三个通常难以兼得的目标。 huggingface.co

KnowU-Bench评测手机agent的主动服务能力：何时介入、何时沉默 与静态评测不同，该基准要求agent在真实GUI环境中通过交互获取用户偏好，并自主判断介入时机。 huggingface.co

SkillClaw让agent技能在部署后持续进化，从用户交互中自动改进 现有系统的技能在部署后保持静态，SkillClaw将不同用户的成功与失败信号汇聚，驱动技能自动迭代。 huggingface.co

NUMINA无需训练即可修复视频生成模型的物体计数错误 框架通过选择判别性注意力头检测提示与布局的不一致，再调节cross-attention引导模型生成正确数量的物体。 huggingface.co

MegaStyle用17万条风格描述构建大规模风格数据集 利用生成模型文本到图像风格映射的一致性，产出风格内一致、风格间多样的图像数据集，内容提示达40万条。 huggingface.co

OpenAI上线Academy教程，教用户用ChatGPT做搜索和深度研究 教程覆盖ChatGPT、Codex和API的实际用法，另设专题讲解如何利用搜索和deep research功能分析来源、生成结构化报告。 openai.com