OpenAI一边发能推理基因组的生物模型，一边赶在同周发布生物防御计划

01推出能做基因组推理的生物模型的同一周，OpenAI发布了一份生物防御行动计划

同一家公司，同一周，做了两件方向相反的事。

一边，OpenAI给GPT-Rosalind加了新能力。这个面向生命科学的模型现在能做更强的生物推理，懂医药化学，能分析基因组，还能上手实验流程。换句话说，它把一套原本散落在专业实验室里的本领，打包进了一个对话框。

另一边，同一家公司发了一篇叫《智能时代的生物防御》的文章，主题是一份「AI驱动生物韧性」的行动计划，谈的是怎么守住这类能力不被滥用。

把这两份发布并排放着读，对照就出来了：增强生物推理的是OpenAI，出面谈怎么防的也是OpenAI。造钥匙的人和装锁的人，是同一双手。

这不是巧合，更像是一种姿态。一个能读懂基因组、能设计实验流程的模型，本身就是双刃的——同样的推理能力，既能加速新药研发，也能被用来琢磨别的东西。OpenAI显然清楚这一点，所以它没有等外界来追问，而是自己在发布能力的同一周，先把防御的话讲在前面。

于是读者看到的，是一家公司同时扮演两个角色：它先把生物推理的门槛往下压，又赶在质疑落地之前，把「我们也在想怎么防」摆上台面。两篇文章挂在同一个博客上，相隔不过几天。

生物推理能力下放到对话框，专业门槛降低造能力与谈防御出自同一家公司行动计划是否落地，看后续披露

来源

Introducing new capabilities to GPT-Rosalindopenai.com Biodefense in the Intelligence Ageopenai.com

02指控Claude把rsync越改越糟的，只是一条没证据的帖子和一张截图

2026年5月底，rsync出事了。先是一条没有证据的帖子在Mastodon上传开。作者把升级后的一次回归硬跟版本里几条Claude提交扯到一起，没给任何技术依据。帖子却轻松收获上千点赞，还有人提议把它加进那份著名的开源垃圾黑名单。

风波很快烧到Hacker News，评论里满是「这下终于证明没人能安全用大模型」的得意。几天后，情绪汇成一个GitHub issue。标题写着「请别把这软件vibe搞砸」，可点进去只有那条帖子的截图，没有任何技术内容，也没人去核实担忧是不是真的。

网名alexispurslane的开发者决定自己查。他料到会被骂「Claude给自己洗地」「八成全是幻觉」，于是报告开头先交代方法论，再给结论。他把代码提交逐条拉出来比对，想弄清那些回归到底是不是Claude写的。

就在同一周，Anthropic开源了一套用自家模型自动找漏洞、修漏洞的框架。厂商忙着证明AI能挖出漏洞，他较真的是另一面：把每条提交都摆出来，让任何人都能自己复核。

开源项目用AI，举证责任落到维护者零证据的指控也能推到黑名单提议判断AI代码好坏仍得靠人工逐条比对

来源

Did Claude increase bugs in rsync?alexispurslane.github.io Anthropic's open-source framework for AI-powered vulnerability discoverygithub.com

03答案对不对已经不够看，新一批agent论文改去定位失败出在哪一步

agent正被大批塞进文档、工具和代码里当助手，可这几天扎堆挂出的几篇论文，没一篇在接着刷成功率，全都掉头去做同一件事：给agent的失败做定位和诊断。

最直接的一篇收集了2790条真实轨迹，横跨两个agent框架和三个底座模型，把搜索、查证据、合成答案的长链切成语义片段，再逐段标出哪一段引入了致命错误。最终答案只告诉你成没成，定位到具体span才知道毛病出在哪。

其余几篇切口各异，落点却一样靠后。TIDE让模型主动从上下文里翻出用户没提、却同样要紧的隐藏问题，而不只回应被明确问到的那条；AdaPlanBench把约束设计成在交互里逐步才披露，专考模型能否边走边重新规划；还有一篇盯上了reward hacking：在用评分模型打分的强化学习里，策略模型钻评分模型的空子，奖励刷得高、活没真干好，论文要做的就是把这种行为复现出来再检测掉。

选agent前先看能不能定位失败评测重心从看结果转向查过程reward hacking可复现可检测

来源

Span-Level Error Localization in Agent Trajectorieshuggingface.co Detecting Reward Hacking in Rubric-Based RLhuggingface.co

Google每月向SpaceX支付9.2亿美元买算力 Google与SpaceX达成算力采购协议，每月支付9.2亿美元。Google方面称交易源于近期发布的AI产品需求超出预期。 techcrunch.com

AirTrunk投300亿美元在印度建5GW的AI数据中心 澳大利亚数据中心运营商AirTrunk承诺投资300亿美元，在印度部署5GW容量。 techcrunch.com

纽约通过对新建数据中心的一年禁令 纽约州议会通过对大型数据中心为期一年的暂停令，若州长Hochul签署，将成为全美首个州级禁令。议员称用这一年评估数据中心对环境和能源价格的影响。 theverge.com

Anthropic推出Claude合作伙伴网络的服务专区和Partner Hub Anthropic在Claude Partner Network中增设Services Track和Partner Hub，面向交付实施类合作伙伴。 anthropic.com

Mira Murati重新公开露面 离开OpenAI后保持低调的Mira Murati开始重新对外发声。 techcrunch.com

初创公司Quilty称读剧本就能预测电影票房，试用者并不买账 Quilty今年宣称其工具只读剧本就能准确预测影片成败，但实际试用的人对预测结果表示怀疑。 theverge.com

数学家就AI快速进展发出警告 一篇被顶上Hacker News的报道称，AI在数学领域推进迅速，数学家就此发出警告。 science.org

英伟达系发布Cosmos 3：面向Physical AI的全模态世界模型 Cosmos 3用统一的mixture-of-transformers架构联合处理和生成语言、图像、视频、音频与动作序列，把视觉语言模型、视频生成、世界模拟、世界-动作模型并入单一框架。 huggingface.co

Code2LoRA用超网络为代码模型生成仓库专属adapter Code2LoRA通过超网络为每个代码仓库生成专属LoRA adapter，注入仓库知识且推理时零额外token开销，替代RAG和逐仓库微调。 huggingface.co

平台给AI内容打标签，却不让用户过滤掉 过去一年YouTube、Instagram、TikTok等加强了内容鉴别，自动给AI生成的图片、视频、音乐贴标签，但仍不提供让用户屏蔽这类内容的选项。 theverge.com

一批初创公司反向押注：让人放下手机 在AI融资屡破纪录的同时，Mirror创始人Brynn Putnam为主打线下游戏与面对面社交的Board融资，另有创客靠手工DIY电脑走红。 techcrunch.com