01谷歌开放音乐生成API,Lyria 3正式面向全球开发者
开发者现在可以调用谷歌的音乐生成模型了。3月25日,Lyria 3以付费预览方式向全球开放。开发者通过Gemini API即可接入,模型分两个变体:Pro版生成最长约三分钟的完整歌曲。Clip版专攻30秒片段,面向快速原型和社交媒体场景。
在此之前,AI音乐生成基本困在封闭演示里,开发者看得见却写不进自己的产品。Lyria 3把这件事变成了一行API调用。
谷歌给了开发者相当细的控制粒度:用自然语言指定节奏快慢、歌词起止位置,从前奏编排到副歌再到桥段。模型支持多语言演唱,风格从流行到放克到摩城都能处理。还有一个图像输入功能:给一张图片,模型据此推断情绪和风格来作曲。在AI Studio的「分段构建」模式里,开发者能逐段打磨歌曲结构。
API之外,谷歌同步把这套模型铺进了自家产品线。企业客户通过Vertex AI接入。视频工具Google Vids集成了音乐生成功能。Gemini应用的付费用户也能生成更长曲目。谷歌还上线了音乐创作工具ProducerAI,帮音乐人迭代完整歌曲,已面向全球用户开放。
谷歌也公布了版权处理方式,称训练数据来自YouTube上有权使用的素材,模型不会模仿特定艺术家的声音。所有输出嵌入SynthID数字水印,用于标识AI生成内容。格莱美获奖制作人Yung Spielburg已用这套工具为一部谷歌短片配乐。
02OpenAI一天发出三道安全令:行为框架、赏金计划、青少年保护工具
OpenAI正在筹备上市。就在这个窗口期,公司同一天上线了三套安全体系,从模型行为的哲学准则一路铺到开发者可直接调用的青少年保护工具。
三项措施里最值得关注的是安全赏金计划。它覆盖提示注入、数据外泄等agent场景下的漏洞,请外部安全研究员来找自家系统的破绽。主动为自家agent产品悬赏挖洞,这在行业里还没有先例。同日公开的Model Spec规定了模型在安全与用户自由之间如何取舍,是一份任何人都能审视的公开文档。第三项gpt-oss-safeguard把青少年保护策略做成开源工具,开发者接入后可直接调用年龄相关的内容审核。
每一项单拎出来都站得住:赏金计划用真金白银驱动外部审计,行为框架接受公开质疑,开发者工具直接可落地。三项同日发布,恰逢公司筹备上市,OpenAI没有解释这个时间选择。
03数学AI同一周两路落地,发现与证明同步产品化
数学AI的两条路径在同一周各自推出了面向用户的工具:一条帮数学家发现模式,一条帮数学家写证明。两个团队互不相关,却同时判断时机已到。
硅谷创业公司Axiom Math发布了一款免费的模式发现工具,帮研究者从数据中识别潜在的数学规律,锁定未解问题的突破方向。这款工具脱胎于2024年的学术项目PatternBoost,现在被重新设计成了数学家的日常产品。
开源社区同周上线了LongCat-Flash-Prover,一个560亿参数的混合专家模型。它专攻Lean4形式化证明,把推理过程拆成三步分别训练。两个项目恰好覆盖了数学工作的两半:发现猜想和严格验证。
这种同步不是偶然。2024年以来,早期工具已经证明AI确实能在纯数学中找到人类遗漏的规律,数学界的态度从怀疑转向试探。接受度和模型能力同时到位,学术原型就开始变成产品。Axiom Math没设付费门槛,工具完全免费开放。

MinerU-Diffusion:用扩散模型重新定义文档OCR MinerU-Diffusion将文档OCR重新建模为「逆渲染」问题,用扩散解码替代自回归解码,降低长文档中的顺序延迟和错误累积。该方法在包含表格、公式和复杂排版的文档解析中表现优于传统方案。 huggingface.co
SpecEyes:用投机执行加速agent式多模态推理 针对o3、Gemini等agent式多模态模型反复调用视觉工具带来的延迟问题,SpecEyes提出在agent层面做投机加速——并行预执行感知和规划步骤,压缩级联调用的顺序开销。 huggingface.co
LLM Agent工作流优化综述:从静态模板到动态运行图 一篇系统综述梳理了LLM agent工作流(论文称之为「agentic计算图」)的设计与优化方法,按工作流结构的确定时机分类,覆盖LLM调用、工具使用、代码执行、记忆更新和验证等环节的编排策略。 huggingface.co
WildWorld:面向生成式ARPG的大规模世界模型数据集 WildWorld发布了一个包含动作、显式状态和视觉观测的大规模数据集,用于训练动作条件世界模型。现有数据集通常缺乏多样且语义丰富的动作空间,该数据集试图填补生成式ARPG游戏场景的训练数据缺口。 huggingface.co
PEARL:首个面向流式视频的个性化理解模型 PEARL将个性化多模态理解从静态图片和离线视频扩展到流式视频场景,模型能在连续视觉输入中实时识别新对象和身份并更新记忆,面向未来AI助手的实时交互需求。 huggingface.co
mSFT:解决多任务微调中不同数据集过拟合速度不一的问题 mSFT提出了一种迭代搜索算法,自动检测并排除已过拟合的子数据集,动态调整训练混合比例。解决的核心问题是:统一计算预算下,学得快的任务过拟合而学得慢的任务欠拟合。 huggingface.co
SIMART:用多模态大模型将静态3D网格拆解为可交互资产 SIMART通过MLLM将单体3D网格分解为带关节的可交互资产,直接用于物理仿真和具身AI训练。相比多阶段流水线,单阶段方法减少了模块间的误差累积。 huggingface.co
SpatialBoost:用语言推理补齐视觉模型的3D空间感知短板 预训练视觉编码器主要在2D图像上训练,缺乏对物体间3D空间关系的理解。SpatialBoost通过语言引导的推理增强现有视觉编码器的空间感知能力,无需重新训练基础模型。 huggingface.co
视频生成强化学习新方法:在流形上做探索,避免噪声注入破坏质量 针对GRPO在视频生成中远不如文本和图像领域可靠的问题,研究者提出在预训练模型定义的流形上做探索,替代传统ODE转SDE的噪声注入方式,稳定奖励估计并改善训练对齐效果。 huggingface.co