AI快开门

发现最好的AI工具

2025-12-13

多模态小模型与端侧AI

Jina-VLM、AutoGLM、GLM-4.6V等轻量多模态模型相继开源,可在笔记本甚至手机端运行,兼顾视觉理解、语音交互与自动操作,降低高分辨率推理成本。端侧AI走向实用,预示“AI手机”与本地智能体生态将加速普及。
2025-11-14

具身智能资本与技术双突破

Dexmal原力灵机两轮融近10亿元获阿里、蔚来加码;北大&BeingBeyond零样本人形机器人DemoHLM登NeurIPS;北京人形机器人开源超大参数量VLM,具身智能从实验室走向产线,商业化窗口期全面打开。
2025-08-08

开源与端侧模型提速

小红书开源dots.vlm1、Qwen推4B端侧推理模型、GPT-oss社区版等相继亮相,在树莓派可跑的256k长文本模型与多模态能力逼近SOTA,反映“小型化+开源”正成为对冲闭源旗舰的新趋势。
2025-06-29

长视频理解技术进展

HoPE混合位置编码方法显著提升视觉-语言模型在长视频上的长度泛化能力,为安防、教育、直播等场景的大模型落地扫清关键障碍。
2025-05-17

端侧轻量视觉语言模型

苹果开源FastVLM,在iPhone端实现85倍速视觉问答,证明高压缩视觉Token方案可行,为移动端AR/VR、实时翻译等场景打开落地窗口,或改变“云端大模型”垄断格局。
2025-05-12

端侧视觉-语言模型突破

苹果FastVLM、腾讯混元T1-Vision等模型把多模态能力压缩到手机端,实现本地实时看图聊天;谷歌Gemini 2.5 Pro一次看懂6小时视频,标志视觉理解进入长视频时代,将重塑移动交互与内容生态。
2025-03-29

视觉-语言模型幻觉治理

谷歌联合哥大发布 HaloQuest 框架,用三类视觉陷阱动态评估并降低 VLM 幻觉,在自动驾驶、医疗诊断等关键场景实现 30% 错误率下降。该方法提供可扩展的在线评测接口,已被 Waymo、梅奥诊所试点,推动行业从“能用”到“敢用”。
2025-03-22

轻量级多模态模型

HuggingFace推出SmolVLM2,提供2.56亿-22亿参数三档模型,支持MLX框架与手机-服务器全场景部署,让视频理解能力首次在边缘设备上“跑得快、用得起”,加速多模态AI普惠。
2025-02-20

多模态模型突破

视觉-语言模型密集升级:DeepSeek-R1推理框架首次迁移到视觉领域,谷歌推出PaliGemma 2 Mix与Gemini2.0虚拟科学家,VLM-R1、VideoRoPE、Muse等新品刷新长视频、游戏、科研等多模态任务SOTA,降低创作与研究门槛。
2024-12-07

物理世界模型与代码测评新工具

PhysVLM用游戏bug教模型学物理,准确率超GPT-4o近4个百分点;字节开源最全代码大模型测评工具,填补通用评测空白。两者分别推进多模态物理常识与编程能力评估,为下一代世界模型和开发者选型提供基准。
2024-11-27

终端与边缘AI落地

HuggingFace推2B SmolVLM、英特尔在印建AI PC中心、阿里通义适配鸿蒙多端,显示大模型正向边缘侧轻量化迁移,降低对云端算力依赖,为IoT、PC、手机带来新交互与商业空间。
2024-05-23

国产大模型技术突破

华为-中科院“田字塔”在SuperCLUE基准首次击败GPT-4 Turbo,智谱开源CogVLM2多模态模型性能超GPT-4v,字节跳动启动Top Seed博士计划加码大模型,标志着国产大模型在中文理解与多模态能力上进入全球第一梯队,对自主生态与产业安全具有战略意义。
2024-03-15

多模态大模型激战

苹果MM1 300亿参数多模态MoE模型亮相,华人作者过半;零一万物开放34B多模态API及200K长上下文;复旦开源SoMeLVLM专攻社交媒体多模态分析。巨头与创企同步推进“看得懂、记得住”的大模型,多模态能力成为下一赛点。