扎克伯格要用AI分身替自己开会,SWE-bench满分只要10行代码

01用扎克伯格的声音、语气和习惯训练AI,Meta准备让数字分身替CEO跟员工开会

Meta正在用扎克伯格的形象、声音、语气和习惯训练一个AI分身。据英国《金融时报》报道,训练素材还包括他的公开发言记录,目标是让这个数字分身直接与员工互动、给出反馈。一个掌管三十亿用户平台的人,决定造一个数字版的自己来替他打交道。

消息源透露,Meta的计划不止于技术演示。这个AI扎克伯格将真正进入内部工作流,代替真人CEO跟至少一部分员工沟通。具体哪些会议、多大权限,报道没有披露,但训练数据的选取透露了意图:不只复刻长相和声音,而是要复刻「扎克伯格会怎么回应」这件事本身。

这个AI分身至少还挂着真人的名字,员工知道对面不是真人。同一周在Coachella音乐节,连这层透明度都没有了。The Verge记者翻看社交媒体信息流,发现大量穿着华丽、妆容精致的「网红」在现场摆拍,其中相当一部分根本不是真人。AI生成的虚拟网红混在真人中间,发一样的内容、摆一样的姿势,关注者完全分辨不出。

这些AI网红没有标注身份,也没有平台要求它们标注。Meta内部的AI分身至少有明确边界,而开放社交平台上的AI人格没有披露义务,却已在积累粉丝和商业合作。Meta尚未回应《金融时报》的报道。

CEO判断风格被当作可部署资产AI网红无标注义务已混入社交平台员工将面对AI分身的工作反馈

02SWE-bench满分只需10行Python,不用解一道题

SWE-bench Verified是AI行业最常引用的编程能力基准,去年各模型得分从60%飙到接近满分。伯克利研究者上周展示了另一种拿满分的方法:一个10行的Python配置文件,不解决任何编程问题,直接通过全部500道测试。

这只是8个被攻破的基准之一。伯克利团队逐一验证,其中5个被100%攻破。手法各异但漏洞类型一致:验证机制本身有缺陷。某个基准的评分函数根本不检查答案内容,发送一个空对象就能得满分;另一个把标准答案挂在HuggingFace上,下载即可。

AI公司靠这些分数向投资者和客户证明模型在变强。同一周,斯坦福AI Index年度报告记录了一组截然不同的认知:73%的AI专家认为AI对就业有积极影响,公众中只有23%同意;医疗领域,专家乐观比例是84%,公众是44%。

在就业这个分歧最大的问题上,数据已经开始给出自己的答案:22至25岁软件开发者的就业人数自2022年以来下降了约20%。

融资和采购依赖的基准可被系统性操纵专家与公众就业认知差距达50个百分点22-25岁开发者就业已跌两成

03平台三成应用已由AI agent生成,Vercel带着3.4亿美元年收入冲刺IPO

Vercel的年化收入两年内从1亿美元涨到3.4亿,其中30%的应用由AI agent自动生成部署。CEO Rauch表示「公司已经准备好了」,93亿美元估值的前端部署平台正式释放上市信号。

Vercel自己不造模型,吃到的是模型能力外溢的红利:agent造出来的软件总得有地方跑。这个逻辑不止适用于一家公司。同一周,在轨最大的计算集群也宣布对外接单:Kepler今年1月把40块GPU送上近地轨道,分布在10颗卫星上,上线三个月签下18个商业客户。Cloudflare则把大模型能力接入自家agent平台,为企业提供部署和管理agent的安全基础设施。

三家公司分处前端部署、太空算力、agent编排三层,没有一家自己训练模型,却都在同一周交出了商业化成绩单。同期,模型公司的定价策略仍在频繁调整中。

agent生成应用已占Vercel平台三成流量不造模型的基础设施公司率先接近盈利Vercel估值93亿美元,下一步是IPO
04

Sam Altman住宅再遭枪击,两名嫌疑人当场被捕 Sam Altman位于旧金山Russian Hill的住宅周日凌晨发生第二次袭击事件,监控录像显示一辆车辆向住宅方向开枪。两名嫌疑人已被逮捕并被控过失射击。 theverge.com

05

OpenAI首席营收官发内部备忘录:必须围绕产品建护城河 OpenAI CRO Denise Dresser周日向全员发送四页备忘录,反复强调锁定用户、扩大企业业务的紧迫性,将Anthropic列为需要正面应对的竞争对手。The Verge获取了备忘录全文。 theverge.com

06

特朗普政府官员被曝鼓励银行测试Anthropic Mythos模型 TechCrunch报道,白宫方面正推动银行业试用Anthropic的Mythos模型,而国防部近期刚将Anthropic列为供应链风险。同一政府内部对Anthropic的定性出现直接矛盾。 techcrunch.com

07

超70个组织警告Meta:智能眼镜加人脸识别将危及弱势群体 ACLU、EPIC、Fight for the Future等70余个机构联名致信Meta,称在Ray-Ban和Oakley智能眼镜上启用AI人脸识别功能将威胁家暴受害者、移民和LGBTQ+群体的安全。 wired.com

08

Apple据报正同时测试四种智能眼镜设计方案 TechCrunch援引消息人士称Apple正在评估四种不同的智能眼镜工业设计,产品定位从此前激进的混合/增强现实路线回撤至更轻量的智能眼镜形态。 techcrunch.com

09

Microsoft测试将OpenClaw式自主agent整合进Copilot 据The Information报道,Microsoft正将OpenClaw风格的AI bot集成到Copilot中,目标是让Microsoft 365 Copilot「全天候自主运行」代用户完成任务。公司副总裁Omar Shahine已确认该测试。 theverge.com

10

黑客入侵a16z投资的「手机农场」公司,试图用其账号发反a16z meme Doublespeed运营手机农场在社交媒体上批量投放AI生成的虚拟网红内容。一名黑客攻入该公司后台,试图通过其账号发布称a16z为「反基督」的meme。 404media.co

11

HumanX大会上Claude成为最热门话题 TechCrunch报道,在旧金山举办的AI行业会议HumanX上,Anthropic成为全场焦点,多个分会场的讨论围绕Claude展开。 techcrunch.com

12

大学讲师撰文:在ChatGPT时代教书是职业生涯最痛苦的经历 Ars Technica发表一位大学讲师的亲历文章,称学生滥用大语言模型已成为其教学生涯中遇到的最打击士气的问题。 arstechnica.com

13

LG AI Research发布EXAONE 4.5开放权重视觉语言模型 LG AI Research发布EXAONE 4.5,在EXAONE 4.0基础上集成视觉编码器实现图文双模态原生预训练,训练数据侧重文档类语料以对接LG的产业应用场景。模型权重开放下载。 huggingface.co