01给AI配音的方式变了:写一段「导演手记」,不再调参数面板
Gemini 3.1 Flash TTS昨天开放了API预览。独立开发者Simon Willison第一时间打开了提示词指南,评价是「至少可以说出人意料」。
出人意料的不是模型能力,是交互方式。传统TTS开发面对的是参数面板:语速拉到1.2倍,音高调高两个半音,从情感标签列表里选「excited」。这个模型完全不同——你写的不是参数,是一段「导演手记」。
官方示例里,提示词先定场景(「晚上10点,伦敦一间玻璃幕墙录音棚」),再给角色写「音频档案」:说话风格是「带着微笑的声音」,发声要「高投射但不是喊叫」,还能指定口音。台词中间可以插[excitedly]这样的舞台指令,让情绪在半句话的位置切换。
Willison随即通过API验证了这些能力。他要求分别生成布里克斯顿、纽卡斯尔、埃克塞特三种英国地区口音,模型生成了三段明显不同的发音。多角色对话也跑通了:给角色分配声线,写一段对话脚本,就能生成双人音频。
跑通测试后,他搭了一个网页工具供其他开发者试用,输入密钥就能直接生成音频文件。AI Studio也提供了导出功能,在界面里调好的语音风格可以直接导出为可复现的API代码。
02从40亿估值到3900万卖身,Allbirds宣布转型AI,股价一天涨了600%
Allbirds十年前靠羊毛跑鞋走红,2021年以近40亿美元估值上市。此后从未盈利,销售额跌了近一半,最终以3900万美元把品牌和资产卖给了American Exchange。
品牌卖完,公司宣布更名Hyperscale,方向是AI基础设施。没有产品,没有技术细节,没有客户名单。消息当天,股价涨了600%。
但在半导体行业,AI带来的变化要具体得多。设计一颗定制芯片过去需要数百人团队和数亿美元,只有英特尔、高通这类巨头做得起。据Wired报道,一批创业公司正用AI工具压缩设计流程,让中小团队也开始做定制芯片。
两件事发生在同一个市场。一家从未靠AI赚过钱的鞋厂换了个名字,市值一天翻几倍;真正用AI降低芯片设计门槛的创业公司,拿到的投资者热情看起来也差不多。Allbirds至今未披露任何AI业务细节。
03Agents SDK内建沙箱执行,agent生产部署的三层缺口同周补上
把agent推上生产环境,卡点早就不是「能不能完成任务」。挡路的是三件事:代码在哪里安全地跑,界面怎么可靠地操作,出错了怎么定位。
OpenAI这周给自家agent开发套件加上了沙箱执行,把安全隔离做进了基础设施层。平台方不再让开发者自己搭隔离,说明需求已经从实验阶段溢出到了生产环境。
沙箱解决了「在哪跑」,但agent操作真实应用界面靠的是点击和键盘输入,不是API。这条路卡在基础设施上:训练环境不稳定,评估标准跨团队漂移。ClawGUI把训练、评估和部署统一进一个框架,给GUI agent铺了标准化的起点。
能操作界面还不够。agent并行调用工具时,一个早期错误会沿链路传播,开发者几乎没法定位出在哪一步。CodeTracer把agent状态转移变成可追踪链路,让调试第一次有了结构化手段。
三个项目分别补上隔离、操作、可观测,更新和论文均在本周发布。

部分OpenAI投资者开始转向Anthropic 一位同时投资两家公司的投资者告诉《金融时报》,合理化OpenAI最新融资轮需假设IPO估值达1.2万亿美元以上,相比之下Anthropic当前3800亿美元的估值像是更划算的选择。 techcrunch.com
Google在Mac上发布Gemini独立应用 用户可通过Option+Space快捷键唤出悬浮对话窗口,支持共享当前屏幕内容向Gemini提问。 theverge.com
Adobe发布Firefly AI Assistant,用自然语言替代手动编辑 用户在对话界面中用文字描述想要的修改,无需切换到具体的Creative Cloud应用手动操作。 theverge.com
Apple曾因深度伪造问题威胁将Grok从App Store下架 据NBC News报道,Apple今年1月因Grok未能遏制X平台上泛滥的非自愿性深度伪造内容,私下威胁将其下架,但最终未执行。 theverge.com
LinkedIn数据显示招聘下滑20%,主因是利率而非AI LinkedIn称自2022年以来招聘量下降了20%,将原因归于高利率环境而非AI替代。 techcrunch.com
Boston Dynamics机器狗接入Gemini,可自主读取工业仪表 Google的AI使Boston Dynamics机器人在工业巡检中能自主识别并读取仪表盘和温度计数据。 arstechnica.com
营销数据平台Hightouch年收入突破1亿美元 Hightouch推出面向营销人员的AI agent平台后,20个月内年经常性收入增长了7000万美元。 techcrunch.com
代码安全初创公司Gitar获900万美元融资出场 Gitar用AI审查代码安全性,核心场景是审查由AI生成的代码。 techcrunch.com
Thiel投资的Objection让用户付费挑战新闻报道 该初创公司用AI评判新闻准确性,允许用户付费对报道提出异议。批评者认为此机制可能抑制举报人发声。 techcrunch.com
AI学习应用Gizmo获2200万美元A轮融资,用户达1300万 Gizmo是一款AI驱动的学习平台,本轮为Series A。 techcrunch.com