2026-01-03
视觉生成新范式
NEPA 提出「下一嵌入预测」自回归框架,谢赛宁团队参与,验证无需扩散也能做强视觉模型;同期多项研究探索自回归图像/视频生成,有望重塑生成式 AI 技术路线与算力需求。
2025-06-08
AI4Science与产业应用落地
清华与智源联合推出DrugCLIP,虚拟筛选速度提升百万倍,打通AlphaFold到新药发现;同时AI修图3.0、Eleven v3情感TTS、ComfyMind一站式视觉生成等工具密集升级,显示AI在科研、创意、内容生产全线进入可用级。
2025-03-30
模型架构与训练新范式
OverLoCK“复活”卷积网络作为视觉基础模型;浙大团队提出“下一邻域”视觉生成范式,吞吐提升13.8倍;无标注调优将Llama 3.3 70B推至GPT-4o水平,显示架构创新与训练策略正重塑模型性能边界。
2025-01-29
多模态统一框架
北大VARGPT与阿里、DeepSeek相继发布统一视觉理解-生成框架,实现单模型端到端多模态任务,预示“一个模型同时看与画”的新范式正在形成,降低落地成本。
2024-11-23
多模态大模型突破
Meta开源7B Spirit LM实现情感保留语音-文本统一,DeepSeek等提出JanusFlow 1.3B模型统一视觉理解与生成,谷歌、阿里相继发布Gemini-Exp、Marco-o1等实验模型,多模态能力成为大模型竞争新焦点,推动AI向更自然的人机交互迈进。
2024-08-20
多模态长视频理解技术突破
阿里mPLUG-Owl3以4秒看完2小时电影,浙大ScanFormer迭代消除视觉冗余刷新指代表达理解,Salesforce开源xGen-MM加码视觉推理,Luma v1.5挑战Sora带来更快更真视频生成,多模态模型正在同时向“看得快、看得细、做得出”三重极限突进。