AI歌手霸榜iTunes 11席,Google搜索每小时答错千万次

01Anthropic限定安全研究者访问Claude Mythos,不向公众发布

Claude Mythos在内部测试中找到了一个藏了27年的操作系统远程崩溃漏洞,以及一个存在16年、被自动化测试命中500万次却从未被识别的视频编码bug。到测试结束时,Anthropic称这个模型已在所有主流操作系统和浏览器中挖出数千个高危零日漏洞。

然后Anthropic做了一个没有先例的决定:不发布。

4月7日推出的Project Glasswing框架把访问权限定在12家合作方和40多个关键软件维护组织内,覆盖四大操作系统厂商、主流云平台和摩根大通等金融机构。Anthropic投入1亿美元使用额度和400万美元开源捐赠,条件是合作方须在90天内公开发现的漏洞。

封锁的逻辑写在数据里。在浏览器漏洞利用测试中,Mythos自主完成了181个exploit,上一代旗舰只做到2个。它还能将四个独立漏洞串成完整攻击链,用到此前只有顶级研究员才能操作的技术。Anthropic在同步公开的系统安全卡中写道,这个模型「超越了除最顶尖人类之外的所有人」。公开安全卡本身也是一种策略:把能力边界告诉所有人,把能力锁起来。

知名开发者Simon Willison评价这一做法「确有必要」。他指向更大的背景:Linux内核维护者已注意到AI安全报告从「垃圾」变成了「真正的发现」。curl项目维护者把涌入的报告称为「海啸」。Mythos的出现让这些信号汇成一个判断:AI驱动的漏洞研究已越过噪音阶段。

但决定的代价同样具体。这个模型定价每百万输入token 25美元、输出125美元,Anthropic主动搁置了一条高利润产品线。公司称已就国安影响与美国政府沟通,长期计划是将协调工作移交独立第三方机构。

行业首次主动封锁自家最强模型AI漏洞发现能力已逼近顶级人类研究员开源维护者面临AI安全报告海啸商业收益被主动搁置换取安全窗口期

02Google AI搜索每小时答错数千万次,正确的回答也越来越难验证

《纽约时报》委托一家AI初创公司,对4326条搜索结果中AI生成的回答逐一核查。准确率91%,但Google每年处理超5万亿次搜索,9%错误率意味着每小时有数千万条回答是错的。

准确率还只是表面问题。答对的结果里,56%无法通过AI自己引用的来源验证,四个月前这个比例是37%。模型变聪明了,来源反而更靠不住。

错误本身都很不起眼:博物馆开馆年份差一年,名人堂入选记录被否认存在。看起来合理的答案最不会被质疑。Google发言人称研究有「严重漏洞」,但没有回应验证率下降的问题。

南加州大学3月发表在《Trends in Cognitive Sciences》的研究指向另一层问题。当数十亿人用同一套语言模型写作和思考,表达风格与推理方式都在趋同。研究发现个体借助AI能产出更多想法,但群体的集体创造力反而下降。

9%错误率乘以万亿搜索量,每小时千万级错误正确答案过半无来源佐证AI同质化正在削弱群体创造力

03AI歌手Eddie Dalton占据iTunes排行榜11席,Suno与唱片公司授权谈判僵持

Eddie Dalton的主页写得明明白白:这是一个AI歌手。听众完全知情,但这没妨碍它同时占据iTunes单曲排行榜11个位置,和真人歌手同台竞争。

听众愿意为AI音乐付费,唱片公司却还没想好怎么收钱。据《金融时报》报道,AI音乐平台Suno与环球音乐、索尼音乐的授权谈判陷入僵局。双方卡在一个基本问题上:用户生成的AI歌曲能不能公开分享。环球要求AI曲目留在应用内部,Suno认为限制分享等于砍掉产品最核心的吸引力。

Eddie Dalton的歌就这么挂在公开排行榜上,而生成这类音乐的工具连正式授权都还没拿到。授权怎么定、收入怎么分、创作者权益怎么保护,每一个问题都悬着。据报道,双方分歧严重,短期内看不到妥协空间。

消费者接受度已不是AI音乐瓶颈授权与分成框架空白才是核心卡点排行榜规则未区分AI与真人
04

Anthropic与Google、Broadcom达成数GW级下一代算力合作 Anthropic宣布扩大与Google和Broadcom的合作,将获取数GW级下一代计算资源。 anthropic.com

05

GrandCode:多agent强化学习系统在竞赛编程中逼近人类顶尖 GrandCode采用多agent强化学习架构专攻竞赛编程,此前该领域AI最佳成绩为Google Gemini 3 Deep Think在非实时条件下取得的第8名。 huggingface.co

06

Ars Technica发表Sam Altman长篇特写 文章以Sam Altman为切入点审视AI行业现状,标题直问「我们的AI霸主到底怎么了?」 arstechnica.com

07

Spotify AI播放列表功能扩展至播客 去年12月上线的Prompted Playlists原本只支持音乐,现在Premium用户可用自然语言生成个性化播客推荐。 theverge.com

08

Gary Marcus剖析18亿美元「AI公司」Medvi的真实底色 Marcus撰文指出,被标榜为「首家18亿美元AI公司」的Medvi,AI并非其估值的全部支撑。 garymarcus.substack.com

09

MinerU2.5-Pro:文档解析的瓶颈在训练数据而非模型架构 研究发现不同架构和参数规模的SOTA模型在相同难样本上呈现高度一致的失败模式,瓶颈指向训练数据缺陷。MinerU2.5-Pro通过系统化数据工程刷新文档解析SOTA。 huggingface.co

10

TriAttention:在pre-RoPE空间压缩KV缓存,缓解长推理内存瓶颈 长链推理导致KV缓存内存膨胀。TriAttention转向pre-RoPE空间评估KV重要性,避免query随位置旋转造成的top-key选择不稳定。 huggingface.co

11

AURA:视频大模型从离线分析走向实时流理解 现有VideoLLM主要处理离线视频,AURA实现对实时视频流的持续观察和开放式问答。 huggingface.co

12

MIT Technology Review:企业流程应围绕agent从头设计 文章指出AI agent可自主执行完整工作流,但前提是围绕agent重新设计流程,而非嫁接到碎片化遗留系统上。 technologyreview.com

13

OpenWorldLib发布世界模型统一定义与推理框架 项目将世界模型定义为以感知为核心、具备交互和长期记忆能力的模型框架,并发布标准化推理代码库。 huggingface.co