2025-06-10
多模态大模型技术突破
近期多模态大模型在视觉理解、视频生成、3D建模等方向密集突破:港大-英伟达高分辨率视觉注意力提速84倍,小红书开源1420亿参数“dots.llm1”,谷歌Veo 3一键生成360° 3D视频,Direct3D-S2以8卡GPU实现影视级3D开源。技术簇呈现“高质量+高效率+开源”趋势,将显著降低内容创作与具身智能门槛,推动XR、机器人和设计工业落地。
2025-04-29
多模态与生成式创新
Gen-4 References实现实时图像光影混合;英伟达3B参数DAM模型细节描述媲美GPT-4o;360开源FG-CLIP解决细粒度跨模态对齐;Meta TokenShuffle支持2048×2048高分辨率图像生成;Suno V4.5、FASHN v1.5等工具持续升级,多模态生成进入高保真、高分辨率时代。
2025-01-05
端侧高分辨率生成模型突破
Snap发布手机端秒级高分辨率图像生成模型SnapGen,标志着端侧AIGC能力再上新台阶,将推动社交、广告、电商等内容生产链条去云端化,降低算力成本并提升隐私安全,为移动端创意应用打开新空间。
2024-08-15
多模态生成与可控图像
Lumina-mGPT、腾讯混元ControlNet插件、Getty+NVIDIA 6秒4图、阿里UniPortrait等集中发布,文本到高分辨率、多角色一致性、精准姿态控制成为竞争焦点,标志AIGC进入“可控生产”阶段,降低专业创作门槛。