OpenAI模型给几何猜想找出反例，8B加层壳冲到99%正确率

01OpenAI的模型给离散几何里一个中心猜想找出了反例

一个反例就够。OpenAI公布的最新结果显示，他们的一个模型在离散几何领域给一个被广泛接受的中心猜想找到了反例，猜想从此不再成立。

反例可以一次性验证。一个具体构造摆出来，按定义代进猜想走一遍，要么是反例要么不是。这条结果因此和最近几个月「AI参与科研」的喧嚣隔出了一条清晰的界。

同一周，两篇高引用论文都在讲AI自动做研究。一篇盘点了2026年4月前的赛道，给出一个直白数字：完全自动化的系统现在能用15美元生成一篇研究论文。另一篇提出AutoResearchClaw，想把单次执行就停的研究流程改造成跨轮迭代。两篇都承认同一个问题：前沿大模型在科研压力下仍会捏造结果、漏掉错误、判断不出新颖性。

也就是说，多数被冠以「AI研究」的产出，本质上是生成器在按论文的样子产文本。要真正进入科学讨论，还需要人去验、需要复现、需要时间。

离散几何的反例不需要这些。它是单点的、终结性的——构造给出来，原猜想就死。产量极低，但每件都是真东西，和15美元一篇的产线属于完全不同的范畴。

OpenAI没有公开模型用了什么方法、跑了多久、人类介入了多少。结果本身已经成立，下一步等被回答的就是这三个细节。

单一反例即终结猜想，无需样本量AI论文量产成本已降至15美元一篇焦点转向OpenAI是否公开方法过程

来源

An OpenAI model has disproved a central conjecture in discrete geometryopenai.com AI for Auto-Research: Roadmap & User Guidehuggingface.co AutoResearchClaw: Self-Reinforcing Autonomous Research with Human-AI Collaborationhuggingface.co

02Qwen3.7-Max自称「agent frontier」的同一周，另外两个团队在动训练环境和验证器

阿里这周发布Qwen3.7-Max，把它定位为「agent frontier」。同一周还有两篇agent方向的论文来自学术圈，分别动训练环境和验证器。

EnvFactory盯的是训练环境。给agent做强化学习训练，目前只有三种环境可选，每种都有硬伤：真实接口贵且脆，大模型模拟容易幻觉，单轮合成又太假。它的方案是合成多轮可执行环境，让agent在里面学到鲁棒行为。

但环境只是一半。agent跑完任务，怎么判断它真做到了？OpenComputer动的是这一层。它给真实应用挂载结构化的状态检查端点，再叠一个能自我演进的验证层，传统的截图比对和脚本断言不够用。

三件事独立发生，但拼起来正好是agent能力的三个层级：模型、训练环境、验证。Qwen3.7-Max推进第一层；学术圈的两个项目分别动训练环境和验证器，规模化压力同样落在那两层上。

做agent的团队不再只盯大厂模型层学术圈开始填补训练环境和验证器的空白computer-use agent评测从截图升级到状态检查

来源

Qwen3.7-Max: The Agent Frontierqwen.ai EnvFactory: Scaling Tool-Use Agents via Executable Environments Synthesis and Robust RLhuggingface.co OpenComputer: Verifiable Software Worlds for Computer-Use Agentshuggingface.co

038B模型加一层guardrails，agentic任务正确率从53%升到99%

Forge公布的数据：80亿参数模型加自己写的一组guardrails，agentic任务正确率从53%涨到99%。Hacker News上643赞。

这个对比顶在主流路线的对面。过去一年agent能力提升的押注集中在更大的模型、更密的训练、更复杂的verification。Forge的反命题：决定agent上限的不是模型本身，是外面那层rails。

同方向的信号还有两条。Hugging Face上《Code as Agent Harness》174赞，主张让代码直接做agent推理和验证的载体；《SkillsVote》117赞，讨论agent skill的生命周期治理。rails这一侧的工程层开始被独立研究。

但Forge只是单项目数据，任务分布没公开，「8B任意场景都够用」会是过头推断。53到99这个跨度，让agent选型多出一道独立评估：那层rails写得怎么样。

8B开源模型加rails可能替代部分frontier部署agent选型新增评估维度：rails工程质量「scale up模型」不再是agent能力唯一路径

来源

Forgegithub.com Code as Agent Harnesshuggingface.co SkillsVotehuggingface.co

Nvidia季度营收再破纪录，同时披露持有430亿美元创业公司股权 Nvidia周三盘后公布财报，同时披露对AI创业公司的持仓达430亿美元，并预测下季度营收增速将放缓。 techcrunch.com

SpaceX招股书顺带披露：xAI去年烧了64亿美元 SpaceX的IPO文件第一次公开Musk旗下AI公司的财务数据，xAI在2025年亏损64亿美元，同时还在筹划Grok的大规模扩张。 techcrunch.com

OpenAI官方案例：Ramp用Codex把code review时间从小时压到分钟 Ramp工程师把Codex+GPT-5.5接入code review流程，获得实质反馈的时间从数小时降到几分钟。 openai.com

犹他州批准4万英亩的Stratos数据中心，居民和专家集体反对 Box Elder县委员会通过项目，要在Hansel Valley建一座占地4万英亩的超大数据中心。项目以「美国AI主导」为名，居民和专家警告水资源与环境代价。 theverge.com

Google Search里搜商品，Gemini会自动写一段「为什么买这一款」 搜索商品时，Gemini会列出相关产品并生成一段定制说明文字，告诉用户为什么应该买这一款。是I/O大会次日上线的更新。 theverge.com

Google公布AI Mode一年数据：用户查询从关键词转向自然语句 AI Mode推出一年后，Google统计显示用户搜索query从关键词形式过渡到完整自然语言句子。 blog.google

YouTube Shorts上线remix，可以让Gemini把自己塞进别人的视频 点Short下方的remix图标，可让Gemini把视频「重新想象」成另一种风格，或把用户本人插入别人的画面。背后模型是Gemini Omni。 theverge.com

Hassabis在Google I/O收尾时说，现在可能是「奇点的山脚」 Google DeepMind CEO在主题演讲结尾把当下形容为「人类的深刻时刻」，描述为通往AGI的「山脚」。 theverge.com

OpenAI与新加坡签多年合作，覆盖企业部署、人才培训和公共服务 新加坡成为OpenAI多年期国家合作的最新一站，内容包括本地企业AI部署、人才培训和公共服务接入。 openai.com

GitHub上线一个CLI工具，专门删除图片里的AI水印 remove-ai-watermarks是开源命令行工具和库，目标是去掉AI生成图片携带的水印标记。 github.com

GoLongRL：开源long-context强化学习训练配方，强调任务能力对齐 HuggingFace论文提出一套能力导向的long-context RL后训练方法，主张数据构建应反映实际长上下文需求，而非堆叠复杂检索路径。 huggingface.co