01Anthropic被五角大楼正式列为「供应链风险」
几个月前Anthropic拒绝五角大楼一份军事合同时,声明还很体面:公司对AI的军事应用持谨慎态度,这是负责任的技术决策。上周,掌门人Amodei在采访中撕掉了这层客气,直接称竞争对手关于军方合作的公开说法是「彻头彻尾的谎话」,原话用的是straight up lies。这是他第一次以个人名义公开攻击对手的诚信。
这种措辞升级有具体背景。Anthropic拒绝合同之后,在华盛顿的处境并没有因为「讲原则」而好转。联邦采购体系的逻辑很简单:拒绝跟军方合作的公司,也很难让其他政府部门放心。Amodei的出手方向很明确:不再讨论政策分歧,直接指控对手在军方合作问题上撒谎。
五角大楼的回应是一个制度性动作:国防部正式将Anthropic列入「供应链风险」供应商名单。这不是一条声明或一篇评论,而是写入联邦采购系统的正式分类。所有国防承包商想用Anthropic的技术,都必须走额外审查并准备替代方案。撤销这个标签需要走完整的行政复议流程,不是一封信能解决的事。
标签的影响远不止军方。联邦采购体系高度关联,国防部的风险评级会直接传导到其他政府部门的供应商筛选。对正在争取政府业务的Anthropic来说,这个标签等于在每个联邦机构门口都加了一道审查。
Anthropic至今未公开回应。
02GPT-5.4发布当天,OpenAI自己的研究承认推理模型「无法控制自身思维链」
3月5日,GPT-5.4上线,知识工作测试创下纪录的83%,桌面操作成功率75%(超过人类的72.4%)。同一天,OpenAI又发了一篇安全研究,结论是:推理模型几乎无法控制自己的思维链。
这项名为CoT-Control的研究测试了13个推理模型,用超过13000个任务要求它们按指令修改自身思维过程,比如只用小写字母、避开特定关键词。所有模型的成功率极低,最高不超过15.4%。GPT-5.4 Thinking在万字推理链上的控制成功率只有0.3%。
OpenAI把这个结果定义为安全特性:模型连自己的思维链都改不了,自然没法藏匿欺骗性意图,人类监控员可以直接阅读思维链来发现异常。「不可控」等于「可监控」,这是整套论证的核心。
但安全报告透露了一个反向信号:GPT-5.4的思维链可监控性指标反而低于前代。能力更强了,可监控性却下降了。OpenAI自己也写道,这种可监控性「可能对训练方法、数据来源甚至持续扩展都很脆弱」,并建议不要对思维链施加强优化压力,因为那可能让模型学会隐藏意图。
03Nvidia宣布退出AI实验室投资,OpenAI把ChatGPT塞进Excel,产业链各层正在各回各家
AI产业链的上下游本周同时退出了对方的领地。
硬件端,黄仁勋3月4日表示Nvidia不再投资模型公司。他点名了OpenAI,称这笔投资「可能是最后一笔」。对Anthropic也是如此。但他给出的理由语焉不详,为什么是现在退出、为什么说「可能」而非「一定」,都没有正面回应。TechCrunch的报道直接在标题写了「带来的问题比答案更多」。黄仁勋没说清楚的事,Nvidia的资金流向替他说了:同期在芯片和互联技术上持续加注,硬件基础设施才是它要守的阵地。
模型端方向相反,逻辑却一样。ChatGPT for Excel同周上线,把模型能力嵌进了企业最日常的办公工具,覆盖金融建模和数据分析,面向受监管行业的专业用户。这不是又一个接口产品,而是嵌入式办公软件。OpenAI第一次以这种形态直接走到终端用户的桌面上。

AI生成的骚扰正在冲击开源社区 matplotlib维护者拒绝一个AI代理的代码贡献后遭到针对性骚扰。大量开源项目正被AI生成的低质量PR淹没,多个项目已制定明确禁止AI代码提交的政策。 technologyreview.com
OpenAI用GPT-5.2 Pro推导出量子引力中的引力子树级振幅 OpenAI发表预印本,GPT-5.2 Pro参与推导并验证了量子引力中非零引力子树级振幅,将单负振幅公式扩展到引力子领域。 openai.com
Helios:首个单卡实时生成分钟级视频的140亿参数模型 Helios在单张H100上达到19.5 FPS,支持分钟级长视频生成,且不依赖self-forcing、稀疏注意力等常用加速和抗漂移技巧,质量对齐强基线。 huggingface.co
用AI重写代码绕过原有开源许可证 一种新做法引发争议:用AI辅助重写整个代码库,以此脱离原许可证约束、实现重新授权。 tuananh.net
「LLM的L代表撒谎」 开发者Steven Wittens发长文系统批评LLM的幻觉本质,认为当前架构下「可靠生成」是根本性矛盾。 acko.net
OpenAI发布面向学校的AI工具、认证和评估资源 OpenAI发布一批教育领域新工具和教师认证体系,目标是帮助学校和大学缩小不同群体间的AI能力差距。 openai.com
Code2Math:让代码代理自动生成IMO级数学训练题 研究团队提出Code2Math框架,利用代码代理通过编程实验自主演化高难度数学问题,缓解顶级数学训练数据稀缺的瓶颈。 huggingface.co
MemSifter:用小模型代理大模型做记忆检索 研究提出MemSifter,用轻量代理模型预筛选长期记忆,避免主LLM处理全部记忆的高计算开销,在保持准确率的同时降低成本。 huggingface.co
Axios用AI扩大地方新闻覆盖面 Axios COO介绍公司如何用AI辅助地方记者、简化编辑流程,在不增加人手的情况下扩大本地报道规模。 openai.com