2026-05-05

生成模型训练与评估突破

USC、CMU、CUHK与OpenAI联合提出FD-loss,首次把沿用十年的图像评估指标FID嵌入训练流程,实现端到端可微优化,显著提升生成质量与稳定性;谷歌同步为Gemini API推出Webhooks,用事件推送替代轮询,降低长任务延迟,利好Deep Research、视频生成等耗时场景。
2025-10-28

多模态大模型突破

英伟达开源OmniVinci刷新SOTA,美团开源13.6B视频模型LongCat-Video,北大&小红书Uni-Instruct把ImageNet单步生图FID压到1.0,多模态理解与生成同步跃迁,标志通用视觉语言模型进入“可用即开源”阶段,将加速影视、广告、教育等内容产业工业化。