CoT - AI话题 - AI快开门

2025-11-30

多模态感知与文档智能升级

腾讯混元开源1B参数HunyuanOCR，统一检测+识别+理解端到端架构，ICDAR 2025夺冠；视觉CoT新范式让VLM具备人类-like思考链；Spatial-SSRL进一步提升大模型空间理解能力。多模态感知进入“轻量级+高精度+强语义”时代，文档、图像、3D场景一网打尽。

OCR 多模态视觉CoT Spatial-SSRL 文档智能

2025-11-28

模型安全与幻觉治理新工具

Meta 发布白盒 CoT-Verifier 把推理错误钉在归因图，清华团队提出 OWL 双路径注意力缓解物体幻觉，IEEE 医学图像框架自学习大纲，显示精准纠错与幻觉抑制正成为大模型落地刚需。

幻觉抑制 CoT-Verifier 白盒推理安全

2025-10-02

大模型微调与推理创新

蚂蚁&港大PromptCoT 2.0用强化学习自博弈合成任务，30B模型数学代码刷新SOTA；Thinking Machines推出Tinker一站式后训练工具，LoRA微调门槛骤降；DeepSeek开源TileLang国产GPU语言，华为昇腾Day0适配，底层生态加速自主化。

微调 PromptCoT TileLang LoRA 推理

2025-07-03

AI安全与治理热议

Bengio团队质疑CoT推理可解释性为“假象”，北邮研究指出长链推理加重幻觉，Science刊文呼吁全球合作引导AI“向善”，上海交大探索大模型可解释性，显示学界对AI可信性与极端风险的担忧升温，技术与治理需同步推进。

AI安全可解释性幻觉治理 CoT

2025-03-05

AI编程工具爆发

Cursor 21个月ARR破亿美元，字节发布原生AI IDE支持中文自然语言一键生成应用，GitHub上相关开源项目星标飙升；美团、斯坦福等相继推出INT8量化、内置CoT等新方案，显著降低开发门槛，预示“人人都是开发者”时代临近。

AI编程 Cursor 字节IDE 低代码内置CoT

2025-02-23

视觉-多模态推理基准升级

港中文MMLab发布MME-CoT基准，首次系统评测大模型视觉链式思维能力；阿里国际开源Ovis2架构，同步提升视频/多图理解，推动多模态应用标准化。

MME-CoT 视觉推理 Ovis2 多模态基准测试

2025-02-09

多模态推理链革新视觉语言模型

MVoT、CoT-for-图像生成等新方法把链式推理扩展到视觉空间，使模型具备「想象」与自解释能力，在VQA、图像生成等任务上增益显著，预示下一代MLLM将走向统一的可视化推理架构。

多模态 CoT MVoT 图像生成可视化推理

2025-02-01

推理模型范式切换

DeepSeek-R1-Zero纯RL无需人类标注，OpenAI即将发布满血o3，北大解构CoT概率树，显示“推理即搜索”的新范式正在取代提示工程，降低数据门槛并刷新性能天花板。

强化学习推理模型 CoT o3 R1-Zero

2024-10-04

OpenAI o1系列推理模型

OpenAI发布全新o1系列大模型，主打「大推理模型」概念，通过强化学习与多步CoT推理显著超越传统自回归LLM。多家机构评测与解析显示其规划能力领先，但成本高昂；同时Noam Brown早期演讲被重新翻出，预示了这波推理范式的跃迁。

o1 推理模型强化学习 CoT 成本

2024-09-22

模型推理机制反思与优化

三校联合研究证实Chain-of-Thought并非万能，仅在数学符号任务显著提效，对多数通用场景增益有限；Anthropic提出“上下文检索”改进RAG，OpenAI o1团队披露早期曾借鉴AlphaGo自我对弈思路，显示行业正从“堆参数”转向“精修推理路径与外部记忆”。

CoT局限性上下文检索 RAG改进 OpenAI o1 推理优化

2024-09-21

推理大模型范式之争

OpenAI o1 引爆“慢思考”推理新范式，国内外迅速跟进：360 提前布局 CoE 多模型协作，清华等团队验证 CoT 可无限扩展 Transformer 推理能力，同时混合架构（Mamba+Transformer）与多模型协作方案试图替代传统提示工程，标志着大模型竞争焦点从训练规模转向推理机制创新。

o1 CoT 推理范式多模型协作慢思考

2024-07-19

多模态长视频理解突破

Goldfish 模型实现任意长度长视频精准理解，VoCoT 引入视觉思维链多步推理，谷歌 Gemini 将贯穿巴黎奥运直播，显示多模态大模型正向长时序、复杂事件与实时转播场景延伸，打开体育、娱乐、教育等全新交互体验。

长视频理解多模态视觉CoT Gemini 实时转播

2024-05-30

多模态与物理世界编辑

北大&天工利用GPT-3.5生成世界指令数据集，推出EditWorld实现物理一致图像编辑；MIT&Google Alchemist细粒度调控材料属性；厦大&腾讯优图开源多模态CoT架构，无需额外训练即可提升推理准确率，多模态AI正突破感知与编辑边界。

多模态图像编辑 CoT 物理世界材料属性

2024-05-28

国产多模态与视频生成突围

北大-兔展开源首个支持国产算力的类Sora模型，Latte DiT架构实现一键部署；厦大&腾讯优图提出多模态CoT思维链，提升视觉定位精度；中国电信语音大模型一次性支持30种方言。国产团队在视频、语音、视觉多模态赛道密集开源，缩小与海外差距。

文生视频多模态CoT 方言语音开源模型

# CoT