CLIP - AI话题 - AI快开门

2026-01-10

AI制药进入“万亿级”筛选时代

清华团队DrugCLIP三连发登上Science，用对比学习实现一天10万亿分子虚拟筛选，速度提升千万倍，可覆盖全基因组2万种蛋白，把“无药可靶”比例从90%降至潜在50%以下，标志着AI制药从单点突破走向系统化工程，将重塑新药研发成本曲线与产业分工。

DrugCLIP 虚拟筛选基因组 Science AI制药

2025-11-05

超级模型与多模态突破

llama.cpp 实现本地多模态革命，360 FG-CLIP2 拿下 29 项中英双语第一，谷歌 Gemini Nano Banana2 升级图像生成，北大&兔展 Uniworld V2 刷新中文细节 SOTA，扩散语言模型推理效率大幅提升。端侧与云侧同步跨越，多模态能力正成为下一代模型标配。

多模态 llama.cpp CLIP 扩散模型 Gemini

2025-10-15

多模态大模型产品密集升级

谷歌Gemini 3.0 Pro可一键生成网页版操作系统，Veo3.1视频模型即将上线；阿里Qwen3-VL推出4B/8B轻量版逼近72B性能；字节开源FaceCLIP实现文本驱动高保真人脸生成，显示多模态能力正快速下沉至边缘与消费级应用。

Gemini3.0 Veo3.1 Qwen3-VL FaceCLIP 多模态

2025-09-03

端侧与消费级AI加速落地

苹果开源FastVLM、MobileCLIP2实现85倍速度提升，Liquid AI推出手机视觉语言模型LFM2-VL，字节Seed新注意力机制让长视频生成计算量降85%，端侧算力与模型协同优化进入实用阶段。

端侧模型 MobileCLIP2 LFM2-VL 长视频生成计算优化

2025-06-02

多模态与评测基准

360开源1200万细粒度图文对数据集FG-CLIP，浙大等发布5700问空间智能评测基准，双双瞄准“模型幻觉”与“空间盲区”，为多模态大模型提供更高阶的试金石。

多模态图文对齐空间智能评测基准 FG-CLIP

2025-05-17

统一多模态模型突破

BLIP3-o、混元图像2.0等模型用“先理解后生成”或实时交互，刷新图文双SOTA，端掉VAE，显示扩散+自回归融合路线已成熟，加速视觉内容生产与编辑平民化。

多模态 BLIP3-o 扩散模型实时生图 CLIP

2025-04-29

多模态与生成式创新

Gen-4 References实现实时图像光影混合；英伟达3B参数DAM模型细节描述媲美GPT-4o；360开源FG-CLIP解决细粒度跨模态对齐；Meta TokenShuffle支持2048×2048高分辨率图像生成；Suno V4.5、FASHN v1.5等工具持续升级，多模态生成进入高保真、高分辨率时代。

多模态生成式AI 图像生成 CLIP 高分辨率

2024-07-02

AI4Science与生物计算突破

ESM3蛋白质生成模型获3.72亿美元融资，BioCLIP获CVPR最佳学生论文，ESM-AA、Vabs-Net等多尺度蛋白质语言模型入选顶会，AI筛查13种癌症准确率98.2%。大模型正成为生命科学基础设施，加速药物发现与生物制造。

蛋白质语言模型 AI制药 BioCLIP 癌症筛查 ESM3

2024-06-21

视频/多模态生成再突破

斯坦福 Hedra、快手可灵、Luma、Runway 等工具将文生视频时长推至 30 秒-3 分钟，支持音频驱动、4D 重建与多模态混剪；CVPR 最佳学生论文 BioCLIP 与智源 3D 医学多模态大模型进一步拓展视觉基础模型边界，显示多模态仍是研发焦点。

文生视频 Hedra 可灵多模态 BioCLIP

2024-06-06

多模态与CV前沿创新

CLIP-as-RNN无需训练即可开放词汇分割，快手「可灵」生成120s物理一致视频，LPSNet实现无透镜3D人体估计，多模态与视觉算法在CVPR 2024集中爆发，推动感知-生成一体化。

多模态 CLIP 视频生成无透镜成像 CVPR

2024-04-08

多模态大模型统一框架突破

CVPR、北大、华科等团队接连发布FairCLIP、PSALM、Open Sora等统一框架，实现医疗图像公平性、多任务分割、视频生成一键完成，并首次支持华为昇腾芯片。模型与代码全开源，标志着多模态应用从“专用小模型”走向“一个模型全能打”的拐点。

多模态统一框架 CLIP 视频生成开源

2024-04-01

多模态生成与编辑技术爆发

Long-CLIP、Mini-Gemini、PixVerse、可编辑DALL·E 3等成果同时亮相，实现长文本驱动细粒度图像/视频生成、角色一致性视频及一句话PS，多模态AIGC正式迈入“可控+高一致性”时代。

多模态生成 CLIP 视频生成图像编辑一致性

2024-03-31

多模态技术新进展

上海交大新框架解锁CLIP长文本能力，腾讯游戏400+AI角色系统训练成本降90%，IDEA研究院模型打通文本-视觉Prompt，显示多模态理解与生成在学术与工业场景同步提速。

多模态 CLIP 长文本腾讯游戏 IDEA

2024-02-08

多模态大模型突破

EVA-CLIP-18B、MoE架构、多Agent协作等视觉-语言及多模态技术集中开源或产品化，显著降低推理成本并逼近GPT-4性能，为下游应用提供新基座，预示2024年“多模态平价时代”到来。

多模态 CLIP MoE 开源 Agent

2024-01-20

多模态与图学习应用落地

华为提出UMG-CLIP统一多粒度视觉-语言预训练，360分享Mind模型在多兴趣召回中的实战优化，度小满将图机器学习用于金融风控，表明多模态与图神经网络已走出实验室，在推荐、风控、搜索等高价值场景产生可量化业务收益。

多模态图学习 CLIP 推荐系统风控

# CLIP