xAI只剩2个创始人，AI识别救命也能害命

01同是AI识别技术，一个把无辜祖母送进监狱，一个在澳洲偏远社区筛查心脏病

北达科他州一位祖母因AI人脸识别的错误匹配，被当作欺诈嫌疑人逮捕，关了数月。她没有犯罪记录，和真正的嫌疑人也不像，但警方拿到匹配结果后直接抓人，没做任何人工复核。

几乎同时，Google在澳大利亚偏远原住民社区部署了AI心脏健康筛查工具。这些社区离最近的心脏专科医生要开几百公里的车，心血管疾病发现时往往已经太晚。AI在这里做的事和人脸识别本质一样：从人体特征中找异常模式。

同样让AI识别人体特征，两套系统的部署规则完全不同。澳洲筛查项目经过伦理审查委员会批准，AI判读必须由医生确认才能形成诊断。AI只管初筛，拍板的是人。北达科他的执法链条里这道防线不存在：AI给出匹配，警方就把人铐走了。据Grand Forks Herald报道，这位祖母被关数月后才被证实无辜，全程没人质疑过AI的输出。

Google的健康项目也不是没有争议，原住民社区的数据主权问题尤其敏感。但医疗场景至少预设了AI会犯错，流程里有人类专业判断兜底；执法场景却把AI输出直接当成行动依据。

AI识别技术正从人脸和心脏扩展到保险核保、入境审查、学校考勤。哪些场景必须有人类审核，目前没有统一答案。北达科他那位祖母的案子里，从AI输出匹配到她走出监狱，隔了数月——中间没有任何制度性环节要求一个人类再看一眼。

同类技术在医疗和执法中部署规范差距大识别技术正扩展到更多高风险领域有无人类审核直接决定误判代价由谁承担

来源

AI error jails innocent grandmother in North Dakotagrandforksherald.com How AI is helping improve heart health in rural Australiablog.google

02AI助手接管外卖、游戏和二手交易，三大平台争夺「替你办事」入口

对着手机说「帮我点杯咖啡」，Gemini自动打开外卖app、选好饮品、完成下单。这个场景本周在三星和Google最新机型上成了现实，首批支持外卖和打车两类app。

同一周，微软宣布Xbox Copilot年内登陆现役游戏主机，玩家能用语音让AI查攻略、调设置。Facebook Marketplace则给卖家上线了AI自动应答，「还在卖吗」这类重复消息不再需要手动回复。

三个产品切入点各异：Gemini做手机端跨app操作，微软把AI嵌入游戏场景，Meta则用它降低卖家沟通成本。但方向一致，都在把AI从「回答问题」推向「代替用户执行操作」。谁先让AI成为消费者的默认操作界面，谁就拿到下一代用户入口。

这也带来新的问题。Gemini替你下单点错了餐，退款找谁？AI替卖家应答时承诺了不该给的价格怎么办？当AI代替用户做有真实金钱后果的操作，责任归属还没有清晰答案。Google目前的做法是让操作在独立的虚拟窗口中运行，用户仍需确认最终步骤。

AI从对话工具变为交易执行层三大平台同时抢占「替用户操作」入口出错责任归属尚无行业共识

来源

Gemini's task automation is here and it's wildtheverge.com Microsoft's Copilot AI assistant is coming to current-gen Xbox consoles this yeartheverge.com Facebook Marketplace adds AI auto-repliestheverge.com

03xAI创始团队只剩2人，Musk称要「从地基重建」

xAI的编程产品团队负责人上周告诉同事，他要走了。这位联合创始人被Musk指责为产品表现不力的责任人，随后被解除核心职务。同一周，另一位联合创始人也离开了公司。

这家公司三年前有12位联合创始人，如今只剩2个。员工抱怨持续动荡摧毁了士气，研究人员因倦怠或被对手挖走而不断流失。Musk自己承认公司「第一次没建对，正在从地基重建」。重建的第一步：从AI编程公司Cursor挖来两名工程师。

创始团队走向瓦解的同一周，写了四十多年代码的开发者Les Orchard在博客上说，AI把他所在的社区劈成了两半。珍视手写代码的人和只看结果的人，过去做着一模一样的事，分歧从未浮出水面，直到AI迫使每个人选边。他引用另一位开发者的文章标题来形容这种感受：「我们哀悼我们的手艺。」

xAI三年流失十位联合创始人，团队几近解体AI竞赛的代价不只是烧钱，也在消耗建设者本身

来源

Elon Musk pushes out more xAI founders as AI coding effort faltersft.com Grief and the AI splitblog.lmorchard.com

Anthropic Claude新增图表和可视化生成能力 Claude现在可以在对话中直接生成图表、流程图等可视化内容。当Claude判断视觉呈现有助于理解时，会将图像嵌入对话流中，而非放在侧边栏。 theverge.com

Netflix与Ben Affleck押注定制AI模型用于电影制作 好莱坞开始转向为特定影片训练专用AI模型，而非依赖Sora、Veo等通用视频生成工具。Netflix等公司认为，通用模型的输出质量不足以用于正式制作流程，定制模型才是可行路径。 theverge.com

「Can I Run AI Locally」上线，帮用户判断本地硬件能跑哪些模型 一个新工具网站上线Hacker News热榜，用户可查询自己的硬件配置能否本地运行特定AI模型。 canirun.ai

研究提出用执行录屏视频评估计算机操作agent 一篇新论文提出通过agent执行过程的屏幕录像关键帧来判断任务是否完成，不依赖agent内部推理或动作日志。该方法与具体agent架构无关，但需解决画面高度冗余和关键线索局部化的问题。 huggingface.co

IndexCache通过跨层索引复用加速稀疏注意力 针对长上下文agent工作流，研究者提出IndexCache方法，解决DeepSeek Sparse Attention中索引器本身仍为O(L²)复杂度的瓶颈，通过跨层复用索引降低计算开销。 huggingface.co

Spatial-TTT：用测试时训练实现流式视觉空间理解 研究者提出Spatial-TTT方法，让模型在处理连续视频流时通过测试时训练持续更新空间信息，解决传统方法无法在无限长视频流中有效保留和组织空间证据的问题。 huggingface.co

MADQA基准测试：多模态agent在文档集合中是策略推理还是随机搜索？ 研究者发布包含2250个问题和800份PDF文档的MADQA基准，基于经典测试理论设计，用于区分多模态agent究竟具备真正的策略推理能力，还是仅在做随机试错。 huggingface.co

GOLF框架让强化学习利用自然语言反馈引导探索 新提出的GOLF框架将大语言模型与环境交互中获得的自然语言反馈聚合为组级信号，用于指导强化学习的定向探索，而非仅依赖标量奖励。 huggingface.co