2026-01-10
AI制药进入“万亿级”筛选时代
清华团队DrugCLIP三连发登上Science,用对比学习实现一天10万亿分子虚拟筛选,速度提升千万倍,可覆盖全基因组2万种蛋白,把“无药可靶”比例从90%降至潜在50%以下,标志着AI制药从单点突破走向系统化工程,将重塑新药研发成本曲线与产业分工。
2025-11-05
超级模型与多模态突破
llama.cpp 实现本地多模态革命,360 FG-CLIP2 拿下 29 项中英双语第一,谷歌 Gemini Nano Banana2 升级图像生成,北大&兔展 Uniworld V2 刷新中文细节 SOTA,扩散语言模型推理效率大幅提升。端侧与云侧同步跨越,多模态能力正成为下一代模型标配。
2025-10-15
多模态大模型产品密集升级
谷歌Gemini 3.0 Pro可一键生成网页版操作系统,Veo3.1视频模型即将上线;阿里Qwen3-VL推出4B/8B轻量版逼近72B性能;字节开源FaceCLIP实现文本驱动高保真人脸生成,显示多模态能力正快速下沉至边缘与消费级应用。
2025-09-03
端侧与消费级AI加速落地
苹果开源FastVLM、MobileCLIP2实现85倍速度提升,Liquid AI推出手机视觉语言模型LFM2-VL,字节Seed新注意力机制让长视频生成计算量降85%,端侧算力与模型协同优化进入实用阶段。
2025-06-02
多模态与评测基准
360开源1200万细粒度图文对数据集FG-CLIP,浙大等发布5700问空间智能评测基准,双双瞄准“模型幻觉”与“空间盲区”,为多模态大模型提供更高阶的试金石。
2025-05-17
统一多模态模型突破
BLIP3-o、混元图像2.0等模型用“先理解后生成”或实时交互,刷新图文双SOTA,端掉VAE,显示扩散+自回归融合路线已成熟,加速视觉内容生产与编辑平民化。
2025-04-29
多模态与生成式创新
Gen-4 References实现实时图像光影混合;英伟达3B参数DAM模型细节描述媲美GPT-4o;360开源FG-CLIP解决细粒度跨模态对齐;Meta TokenShuffle支持2048×2048高分辨率图像生成;Suno V4.5、FASHN v1.5等工具持续升级,多模态生成进入高保真、高分辨率时代。
2024-07-02
AI4Science与生物计算突破
ESM3蛋白质生成模型获3.72亿美元融资,BioCLIP获CVPR最佳学生论文,ESM-AA、Vabs-Net等多尺度蛋白质语言模型入选顶会,AI筛查13种癌症准确率98.2%。大模型正成为生命科学基础设施,加速药物发现与生物制造。
2024-06-21
视频/多模态生成再突破
斯坦福 Hedra、快手可灵、Luma、Runway 等工具将文生视频时长推至 30 秒-3 分钟,支持音频驱动、4D 重建与多模态混剪;CVPR 最佳学生论文 BioCLIP 与智源 3D 医学多模态大模型进一步拓展视觉基础模型边界,显示多模态仍是研发焦点。
2024-06-06
多模态与CV前沿创新
CLIP-as-RNN无需训练即可开放词汇分割,快手「可灵」生成120s物理一致视频,LPSNet实现无透镜3D人体估计,多模态与视觉算法在CVPR 2024集中爆发,推动感知-生成一体化。
2024-04-08
多模态大模型统一框架突破
CVPR、北大、华科等团队接连发布FairCLIP、PSALM、Open Sora等统一框架,实现医疗图像公平性、多任务分割、视频生成一键完成,并首次支持华为昇腾芯片。模型与代码全开源,标志着多模态应用从“专用小模型”走向“一个模型全能打”的拐点。
2024-04-01
多模态生成与编辑技术爆发
Long-CLIP、Mini-Gemini、PixVerse、可编辑DALL·E 3等成果同时亮相,实现长文本驱动细粒度图像/视频生成、角色一致性视频及一句话PS,多模态AIGC正式迈入“可控+高一致性”时代。
2024-03-31
多模态技术新进展
上海交大新框架解锁CLIP长文本能力,腾讯游戏400+AI角色系统训练成本降90%,IDEA研究院模型打通文本-视觉Prompt,显示多模态理解与生成在学术与工业场景同步提速。
2024-02-08
多模态大模型突破
EVA-CLIP-18B、MoE架构、多Agent协作等视觉-语言及多模态技术集中开源或产品化,显著降低推理成本并逼近GPT-4性能,为下游应用提供新基座,预示2024年“多模态平价时代”到来。