AI快开门

发现最好的AI工具

2026-01-03

视觉生成新范式

NEPA 提出「下一嵌入预测」自回归框架,谢赛宁团队参与,验证无需扩散也能做强视觉模型;同期多项研究探索自回归图像/视频生成,有望重塑生成式 AI 技术路线与算力需求。
2025-06-08

AI4Science与产业应用落地

清华与智源联合推出DrugCLIP,虚拟筛选速度提升百万倍,打通AlphaFold到新药发现;同时AI修图3.0、Eleven v3情感TTS、ComfyMind一站式视觉生成等工具密集升级,显示AI在科研、创意、内容生产全线进入可用级。
2025-03-30

模型架构与训练新范式

OverLoCK“复活”卷积网络作为视觉基础模型;浙大团队提出“下一邻域”视觉生成范式,吞吐提升13.8倍;无标注调优将Llama 3.3 70B推至GPT-4o水平,显示架构创新与训练策略正重塑模型性能边界。
2025-01-29

多模态统一框架

北大VARGPT与阿里、DeepSeek相继发布统一视觉理解-生成框架,实现单模型端到端多模态任务,预示“一个模型同时看与画”的新范式正在形成,降低落地成本。
2024-11-23

多模态大模型突破

Meta开源7B Spirit LM实现情感保留语音-文本统一,DeepSeek等提出JanusFlow 1.3B模型统一视觉理解与生成,谷歌、阿里相继发布Gemini-Exp、Marco-o1等实验模型,多模态能力成为大模型竞争新焦点,推动AI向更自然的人机交互迈进。
2024-08-20

多模态长视频理解技术突破

阿里mPLUG-Owl3以4秒看完2小时电影,浙大ScanFormer迭代消除视觉冗余刷新指代表达理解,Salesforce开源xGen-MM加码视觉推理,Luma v1.5挑战Sora带来更快更真视频生成,多模态模型正在同时向“看得快、看得细、做得出”三重极限突进。
2024-07-13

视觉生成技术瓶颈梳理

MSRA系统总结当前视觉生成领域六大核心技术问题,为科研与产业界提供明确攻坚方向,有望加速高保真、可控图像/视频生成落地,降低下游应用研发成本。