AI快开门

发现最好的AI工具

2025-11-30

多模态感知与文档智能升级

腾讯混元开源1B参数HunyuanOCR,统一检测+识别+理解端到端架构,ICDAR 2025夺冠;视觉CoT新范式让VLM具备人类-like思考链;Spatial-SSRL进一步提升大模型空间理解能力。多模态感知进入“轻量级+高精度+强语义”时代,文档、图像、3D场景一网打尽。
2025-11-28

模型安全与幻觉治理新工具

Meta 发布白盒 CoT-Verifier 把推理错误钉在归因图,清华团队提出 OWL 双路径注意力缓解物体幻觉,IEEE 医学图像框架自学习大纲,显示精准纠错与幻觉抑制正成为大模型落地刚需。
2025-10-02

大模型微调与推理创新

蚂蚁&港大PromptCoT 2.0用强化学习自博弈合成任务,30B模型数学代码刷新SOTA;Thinking Machines推出Tinker一站式后训练工具,LoRA微调门槛骤降;DeepSeek开源TileLang国产GPU语言,华为昇腾Day0适配,底层生态加速自主化。
2025-07-03

AI安全与治理热议

Bengio团队质疑CoT推理可解释性为“假象”,北邮研究指出长链推理加重幻觉,Science刊文呼吁全球合作引导AI“向善”,上海交大探索大模型可解释性,显示学界对AI可信性与极端风险的担忧升温,技术与治理需同步推进。
2025-03-05

AI编程工具爆发

Cursor 21个月ARR破亿美元,字节发布原生AI IDE支持中文自然语言一键生成应用,GitHub上相关开源项目星标飙升;美团、斯坦福等相继推出INT8量化、内置CoT等新方案,显著降低开发门槛,预示“人人都是开发者”时代临近。
2025-02-23

视觉-多模态推理基准升级

港中文MMLab发布MME-CoT基准,首次系统评测大模型视觉链式思维能力;阿里国际开源Ovis2架构,同步提升视频/多图理解,推动多模态应用标准化。
2025-02-09

多模态推理链革新视觉语言模型

MVoT、CoT-for-图像生成等新方法把链式推理扩展到视觉空间,使模型具备「想象」与自解释能力,在VQA、图像生成等任务上增益显著,预示下一代MLLM将走向统一的可视化推理架构。
2025-02-01

推理模型范式切换

DeepSeek-R1-Zero纯RL无需人类标注,OpenAI即将发布满血o3,北大解构CoT概率树,显示“推理即搜索”的新范式正在取代提示工程,降低数据门槛并刷新性能天花板。
2024-10-04

OpenAI o1系列推理模型

OpenAI发布全新o1系列大模型,主打「大推理模型」概念,通过强化学习与多步CoT推理显著超越传统自回归LLM。多家机构评测与解析显示其规划能力领先,但成本高昂;同时Noam Brown早期演讲被重新翻出,预示了这波推理范式的跃迁。
2024-09-22

模型推理机制反思与优化

三校联合研究证实Chain-of-Thought并非万能,仅在数学符号任务显著提效,对多数通用场景增益有限;Anthropic提出“上下文检索”改进RAG,OpenAI o1团队披露早期曾借鉴AlphaGo自我对弈思路,显示行业正从“堆参数”转向“精修推理路径与外部记忆”。
2024-09-21

推理大模型范式之争

OpenAI o1 引爆“慢思考”推理新范式,国内外迅速跟进:360 提前布局 CoE 多模型协作,清华等团队验证 CoT 可无限扩展 Transformer 推理能力,同时混合架构(Mamba+Transformer)与多模型协作方案试图替代传统提示工程,标志着大模型竞争焦点从训练规模转向推理机制创新。
2024-07-19

多模态长视频理解突破

Goldfish 模型实现任意长度长视频精准理解,VoCoT 引入视觉思维链多步推理,谷歌 Gemini 将贯穿巴黎奥运直播,显示多模态大模型正向长时序、复杂事件与实时转播场景延伸,打开体育、娱乐、教育等全新交互体验。
2024-05-30

多模态与物理世界编辑

北大&天工利用GPT-3.5生成世界指令数据集,推出EditWorld实现物理一致图像编辑;MIT&Google Alchemist细粒度调控材料属性;厦大&腾讯优图开源多模态CoT架构,无需额外训练即可提升推理准确率,多模态AI正突破感知与编辑边界。
2024-05-28

国产多模态与视频生成突围

北大-兔展开源首个支持国产算力的类Sora模型,Latte DiT架构实现一键部署;厦大&腾讯优图提出多模态CoT思维链,提升视觉定位精度;中国电信语音大模型一次性支持30种方言。国产团队在视频、语音、视觉多模态赛道密集开源,缩小与海外差距。