AI快开门

发现最好的AI工具

2025-12-31

多模态大模型竞速

谷歌Gemini-3-Pro在SuperCLUE-VLM榜单断层领先,国产商汤、豆包、Qwen3-VL紧随其后;阿里开源Qwen-Image、腾讯开源HY-Motion1.0文生3D动作模型,显示中美在视觉-语言-动作一体化赛道进入密集迭代期,直接决定下一代交互与内容生成标准。
2025-12-16

国产小模型与开源竞速

Nanbeige4-3B以小博大硬刚Qwen3,国产三强并列开源榜首;蚂蚁数科开源数据智能体,IBM CUGA开源助手任务完成率超60%,国内厂商通过开源小参数、高推理速度模型抢占边缘场景,推动AI民主化与信创替代。
2025-10-17

多模态大模型突破

李飞飞团队RTFM实现单卡实时3D世界生成,谷歌Gemini 3.0 Pro、百度PaddleOCR-VL等刷新OCR与推理纪录,开源LLaVA-OneVision-1.5登顶多模态榜单,显示视觉-语言-动作统一模型正快速走向实用化,为下一代交互与内容生产奠定基础。
2025-10-13

扩散语言模型推理突破

蚂蚁集团开源dInfer框架,首次将扩散语言模型推理速度提升10倍,超越自回归范式,为大模型高效落地奠定新基座,被视为后Transformer时代的重要里程碑。
2025-10-05

蛋白质语言模型可解释突破

InterPLM利用稀疏自编码器从ESM-2表示中提取数万个人类可读特征,首次揭示PLM以“叠加”方式编码结合位点、结构基序等概念,为药物设计提供可解释基石。
2025-06-15

混合架构新范式崛起

康奈尔Eso-LM将扩散模型与自回归融合,速度提升65倍,英伟达下注;Transformer“混血”引发对自回归范式的再思考,或成通往AGI的又一技术路线,学术与资本同时加注。
2025-05-17

端侧轻量视觉语言模型

苹果开源FastVLM,在iPhone端实现85倍速视觉问答,证明高压缩视觉Token方案可行,为移动端AR/VR、实时翻译等场景打开落地窗口,或改变“云端大模型”垄断格局。
2025-03-24

多模态大模型技术突破

谷歌Gemini Live上线屏幕共享与实时视频交互,伯克利TULIP、腾讯混元-T1、阿里LHM等视觉-语言-动作模型集中发布,标志着多模态理解与生成交互进入可用阶段,为机器人、自动驾驶、3D内容创作打开新空间。
2025-02-20

多模态模型突破

视觉-语言模型密集升级:DeepSeek-R1推理框架首次迁移到视觉领域,谷歌推出PaliGemma 2 Mix与Gemini2.0虚拟科学家,VLM-R1、VideoRoPE、Muse等新品刷新长视频、游戏、科研等多模态任务SOTA,降低创作与研究门槛。
2025-01-28

VideoWorld纯视觉学习突破

豆包联合高校提出VideoWorld,首次在无需语言标签的条件下让模型通过纯视觉信号完成折纸、打领结等复杂任务,验证“视觉本身即足够”的假设,为机器人与视频生成开辟新路径。
2025-01-20

AI安全与幻觉治理

MIT等揭示视觉语言模型无法理解否定表达,淘天提出新对齐方法抑制视觉幻觉,ChatGPT API被曝DDoS漏洞,凸显大模型安全与可信研究紧迫性。
2024-12-14

AI 医疗与生物交叉突破

《自然医学》将三项 AI 临床试验列入 2025 年度关键名单,清华团队用 82 个“锚点”压缩 1048 倍基因序列空间,BiMediX2 阿拉伯语医疗多模态模型获联合国关注。医疗 AI 从论文走向临床与公共卫生,打开超过 4 亿非英语用户市场,吸引监管与资本双重加码。
2024-11-16

大模型数学与推理能力瓶颈

FrontierMath新基准测试揭示主流大语言模型在复杂数学推理上正确率不足2%,凸显其逻辑推理短板;同时业界持续争论LLM是否具备真正“推理”能力,提示通往AGI仍有关键缺口,亟需新算法与评测体系突破。
2024-10-27

AI+药物研发新范式

DEL+AI、化学语言模型、AlphaFold免代码使用等多篇顶刊成果集中出现,显示AI已贯穿靶点发现、分子设计到结构验证全链条,显著缩短研发周期,降低门槛,将重塑制药工业成本曲线。
2024-07-02

AI4Science与生物计算突破

ESM3蛋白质生成模型获3.72亿美元融资,BioCLIP获CVPR最佳学生论文,ESM-AA、Vabs-Net等多尺度蛋白质语言模型入选顶会,AI筛查13种癌症准确率98.2%。大模型正成为生命科学基础设施,加速药物发现与生物制造。
2024-06-18

区域AI竞赛与政策布局

迪拜启动“百万提示者”计划、谷歌Gemini支持九种印度语言、阿联酋与印度争夺AI高地,显示中东与南亚正通过政策+资本+数据场景组合拳,力图在全球AI格局中抢占战略席位。
2024-05-18

视觉-语言与开源生态

Google开源PaliGemma多分辨率VLM家族,HuggingFace发布视觉大模型训练 cookbook,腾讯光子开源ID-Animator实现照片+文字生成定制视频,降低多模态门槛并丰富开源工具链。
2024-05-10

AI for 生命科学新工具链

除 AlphaFold 3 外,ESM-Fold、ESM-2 等蛋白语言模型亦登 Science,利用多序列比对与语言模型实现原子级结构预测;同时谷歌与哈佛发布十年人脑 3D 图谱,结合 AI 与显微镜技术绘制史上最精细人脑图,为脑科学与疾病研究提供开源数据。
2024-05-07

生物医疗AI新框架

Google HEAL评估医学AI公平性,西湖大学蛋白质语言模型定向改造碱基编辑器,BIOBRIDGE用知识图谱桥接多模态生物模型,医疗AI向可解释与可信赖迈进。
2024-04-27

AI4Science与复杂系统新工具

基因组语言模型、点云补全PoinTr、复杂网络涌现实验平台等研究,将Transformer、几何感知与多智能体仿真引入生物、物理、材料等基础科学,降低跨学科门槛,加速科学发现。