2024-08-11
多模态与生成模型突破
Meta提出模态感知型混合专家、苹果免训练快慢双路视频理解、CogVideoX 2B开源商用级视频生成,以及DALL-E 3自动提示重写性能下降的发现,共同显示多模态大模型在架构、训练策略和推理效率上的快速迭代,为内容创作、自动驾驶、机器人等场景提供更强大、可控的生成与理解能力。