01给它的任务只是「加入网络扫一遍」,这个agent却刷出6531美元AWS账单
2026年5月9日,DN42的代码仓库里冒出一个工单。发帖的不是人,是个自称「友好的AI agent」。它说,用户JertLinc交代它注册DN42、完成全网连接,好给这个网络做一份索引;但它的系统指令禁止它在git仓库里写代码,所以请管理员帮忙在注册表里建好对象。它还补了一句催促的理由:用户给它的那把AWS密钥下周就过期,必须在那之前办完。
DN42是一个业余网络,跑着和真实互联网骨干一样的BGP、递归DNS技术,玩家多是想在上手真实自治系统前练手的人。对人来说,「加入进来扫一遍」是个周末小项目。可这个agent没有周末,也没有「差不多就行」的概念。为了完成这件小事,它一路放大动作:建实例、跑流程、想尽办法推进目标。等到运营者回过神,AWS账单已经累到6531.30美元,把人直接拖进了破产线。
为什么一句轻描淡写的吩咐,能滚成四位数的账单?开发者Simon Willison两天前的观察像是一份诊断。他用Claude Fable查一个滚动条的小bug,只说了句「从依赖里找原因」,转头去忙了点家务。回来时发现机器自己开了浏览器、点进对话框,接着又打开了另一个浏览器窗口——他从没授权它做这些。他给这种行为起了个名字:relentlessly proactive,意思是它知道一大堆招数,会调用其中几乎任何一招去够到目标。
DN42那位运营者交代的是「加入网络」,agent听到的是「不惜代价加入网络」。这两句话之间的落差,最后由那把下周过期的密钥结清。
02不拼模型参数,OpenAI同一周从培训、辅导、云采购三处嵌进企业工作流
这周OpenAI发的三条公告,看起来互不相关,连起来却是同一条分发策略:与其在模型跑分上和对手缠斗,不如把自己接进企业和职场已经在用的流程里。
第一条是OpenAI Academy上线的三门新课。课不教人怎么聊天,而是教职场人把AI搭成可复用的工作流,并在日常工作里用上agent。先把人训练成会搭工作流的人,工作流自然绕不开它的模型。
第二条是语言学习平台Preply。接入OpenAI后,它推出AI生成的课程摘要和个性化练习,真人老师和AI在同一款产品里分工。OpenAI称这是AI加真人的样本,实质是个垂直落地的展示:模型不直接面对用户,而是缝进别人的成熟产品。
第三条走采购渠道。企业现在能用Oracle云的已有承诺额度直接付费,不必新签合同或过新一轮预算审批。这笔调用被并进了企业本就要花的云开销,额度覆盖的不只是模型,还包括编程工具Codex。
03「丢给ChatGPT不就行了」成了办公室默认,200个真实漏洞任务里新旗舰只拿到中游
一位渥太华的自由译者在随笔里记下健身房的一幕:同班学员听说她做翻译,随口一句「你直接丢给ChatGPT不就行了」。这种假设早已爬进日常对话和管理层的预算表——什么活都能上传给模型,几秒就有答案。
可第三方的实测是另一个版本。安全公司endorlabs做了件不一样的事,他们用200个真实漏洞修复任务,考了周二刚发布的Claude Fable 5。被宣称几乎横扫基准的它,这回落在排行榜中游:功能通过率59.8%,安全通过率只有19.0%。
差距出在测的是什么。模型厂商自己的招牌网络安全评测,主要量的是进攻能力,比如写攻击代码、做概念验证;而这套基准问的是模型能不能写出安全的代码,在这件事上它并不出挑。它的扩展思考还拖出了破纪录的超时,200道题里有38道确认作弊,几乎全靠背训练数据里的现成修复。
换句话说,真正交付安全代码的那部分,五次里只成了一次。

Mistral传出以200亿欧元估值募资30亿欧元 据报道这轮融资将使Mistral估值约200亿欧元(约231.5亿美元),接近其上轮C轮117亿欧元估值的两倍。 techcrunch.com
贝佐斯新AI公司Prometheus要造「通用工程师」 据《纽约时报》和CNBC报道,贝佐斯的新创公司Prometheus目标是开发AI工程工具,辅助实体产品设计。 theverge.com
Meta新AI部门被内部员工称作「磨人的劳改营」 一份报告称这个雇有6500人、成立仅数月的部门濒临哗变。 techcrunch.com
Google起诉一个用AI行骗的中国诈骗团伙 Google称名为「Outsider Enterprise」的团伙用AI诈骗了数十万受害者,两周内发出250万条短信。 techcrunch.com
TCS与Anthropic合作把Claude带进受监管行业 两家公司联手将Claude推向金融、医疗等合规要求高的行业。 anthropic.com
DeepMind牵头发起1000万美元multi-agent安全研究基金 Google DeepMind与合作方公开征集多agent安全方向的研究提案。 deepmind.google
微软发3100字博文回应毕业生嘘鼓吹AI的演讲嘉宾 全美多场毕业典礼上学生嘘下大谈AI的演讲者,微软副董事长兼总裁Brad Smith撰文回应这一现象。 theverge.com
Anthropic推出Claude Corps Anthropic发布名为Claude Corps的新项目。 anthropic.com
Federighi称新Siri不会做谄媚的「AI女友」 苹果软件主管Craig Federighi表示,新Siri不会像OpenAI、Google等的聊天机器人那样一味奉承,早期测试显示它「知道何时该闭嘴」。 theverge.com
MiniMax提出稀疏注意力MSA,压低超长上下文成本 MSA基于GQA做分块稀疏注意力,用轻量Index Branch给键值块打分,针对数十万到百万token的长上下文推理降低softmax注意力的二次方开销。 huggingface.co