Anthropic撕掉安全标签,OpenAI一边反滥用一边搞监控

01Anthropic放弃标志性安全承诺,同一周收购计算机操控公司Vercept

2023年,Anthropic立下底线:无法事先证明安全措施到位,就不训练下一代模型。这条「负责任扩展政策」是它拿到数十亿融资的信任基础。本周,底线被正式撤掉了。

据Time独家报道,修订后的政策删除了硬性触发机制,不再承诺评估未通过时自动暂停训练。新条件弹性得多:只有当管理层认为自己在竞赛中领先,且灾难性风险够大时,才会「推迟」开发。暂停的前提从「能否证明安全」变成了「是否跑在最前面」。

首席科学家Kaplan说得直接:「竞争对手在全速推进,我们停下来对任何人都没好处。」这话背后是近一年的内部讨论——期待中的监管没落地,评估科学比预想的复杂,竞争又在加剧。

政策修订的同一周,这家公司又收购了Vercept,目标是让自家模型像人一样操作软件。效果已可见:最新模型在OSWorld评估中得分从不到15%跳到72.5%,接近人类水平。Vercept关停自有产品,全员并入。

安全承诺从绝对变有条件,能力边界同步加速扩张。刹车踏板怎么定义,现在完全由自己说了算。

核心安全承诺被替换为弹性条款,暂停门槛大幅抬高收购Vercept推动Claude从对话转向自主操控「安全优先」公司的竞争行为与纯能力公司趋同

02AI编程的接口从聊天框变成了API

一个框架级项目从零到94%API覆盖率,不到一周。一个编码代理开放远程控制接口。一套代理工程方法论被系统整理成文。三件事指向同一个变化:AI编程正在从对话工具变成可编程的基础设施。

Cloudflare的项目最能说明问题。一名工程师从Next.js规范出发,发起800多个自动化编码会话,每次改动由测试套件验证,最终通过1700多个单元测试和380个端到端测试,token成本约1100美元。人不再逐行写代码,而是搭好流水线让代理在里面跑。

Claude Code新上线的远程控制功能指向同一方向。开发者可以从浏览器或手机连接本地运行的编码代理,文件系统和工具链保持不变,代理作为后台进程持续接收指令。这个功能在Hacker News获得512票和近300条讨论。

资深开发者Willison从另一层确认了这个趋势——他开始系统整理「代理工程模式」,构建专门工具让代理自动输出带代码引用的结构化文档,替代容易产生幻觉的人工总结。

AI编程从交互工具转向可编程基础设施框架级工程任务已可由代理流水线完成方法论沉淀预示工作流可规模化复制

03OpenAI同一周发威胁报告反滥用,被曝参与政府身份监控

OpenAI二月威胁报告详述了公司如何检测并封禁利用AI进行钓鱼和社交操纵的恶意账户,称这是「保护用户免受AI滥用」的核心工作。

同一周,一份独立安全调查揭露了另一面。OpenAI与多个美国政府机构合作,通过身份验证公司Persona构建了一套大规模身份监控系统,能自动化验证和追踪用户身份。

一边「打击恶意使用」,一边帮政府建监控工具。威胁报告把「恶意使用」定义为外部行为者利用AI实施的攻击,OpenAI是防御方;但在监控项目里,OpenAI自己就是那个大规模采集和处理用户身份数据的参与者。

这份调查在开发者社区获得超过600票支持(在Hacker News属极高热度)。而OpenAI的威胁报告聚焦于外部威胁,全文未涉及自身与政府机构的合作。

「安全」定义权由被质疑方自己掌握监控合作与反滥用叙事直接冲突威胁报告回避了自身政府合作
04

Salesforce财报稳健,CEO称AI颠覆SaaS「不是第一次」 Salesforce发布年终财报,业绩表现稳健。CEO Marc Benioff在财报会上反驳「AI将杀死SaaS」的论调,称公司此前已多次应对类似的行业变局。 techcrunch.com

05

Benedict Evans:OpenAI多数用户每周只用几次,谈不上改变生活 Benedict Evans指出,如果用户平均每天想不到使用场景,AI就还没真正改变他们的生活。OpenAI自己也承认存在「能力差距」——模型能做的和用户实际做的之间有落差。广告业务部分是为了覆盖超过90%不付费用户的服务成本。 simonwillison.net

06

Simon Willison总结Agentic编程模式:红/绿TDD最有效 Simon Willison将「先写测试、再让代理实现」列为最有效的agentic编程模式。先确认测试失败(红),再让代理迭代直到测试通过(绿),用测试结果约束代理行为,而非依赖自然语言指令。 simonwillison.net

07

Gushwork融资900万美元,押注AI搜索获客 印度初创公司Gushwork完成900万美元种子轮融资,SIG和Lightspeed领投。公司为客户从ChatGPT等AI搜索工具中获取销售线索,已有早期客户牵引力。 techcrunch.com

08

论文系统研究LLM终端代理的训练数据工程 研究者提出Terminal-Task-Gen管线,支持基于种子和技能的合成任务生成,并全面分析了数据策略对代理终端操作能力的影响。此前这一领域的训练数据方法基本未公开。 huggingface.co

09

VLANeXt梳理视觉-语言-动作模型的关键设计选择 针对当前VLA模型领域训练协议不一致、评估设置各异的碎片化现状,研究者系统比较了不同设计选择,识别出真正影响模型性能的因素。 huggingface.co

10

新研究证明测试时训练本质上是线性注意力 研究者发现,基于KV绑定的测试时训练(TTT)架构可以表示为学习的线性注意力算子。这一等价关系解释了此前多个实验中的反直觉现象,并为TTT架构的改进提供了新方向。 huggingface.co

11

SkillOrchestra用技能迁移解决多代理路由的成本问题 论文提出SkillOrchestra框架,针对现有代理路由的两个瓶颈:输入级路由粒度过粗,以及RL训练的编排器在多轮场景中反复调用最贵的模型。框架通过技能迁移在成本和性能之间取得平衡。 huggingface.co