2026-05-09
大模型可解释性突破
Anthropic开源自然语言自编码器(NLA),首次把Claude的隐藏激活直接翻译成人类可读文本,终结“黑箱”困境,为AI安全、合规与可信应用奠定技术基石,引发全球监管与学术圈高度关注。
2026-05-04
科学驱动AI与知识底座
从“科学方法论”重构可解释AI,到跨学科知识图谱底座,再到自然语言驱动的Vibe Modeling,研究范式正由经验堆砌转向原理优先,为AI4S提供可信、可验证、可扩展的基础设施。
2026-04-26
代码Agent可解释调试
南大&快手推出CodeTracer,无需重训即可精准定位代码Agent失败步骤,实现推理链、代码、执行反馈全过程透明化,为黑箱调试提供即插即用解决方案,显著提升AI程序员可靠性。
2025-12-23
AI安全与可解释性升温
OpenAI承认浏览器提示注入难根除,推出“忏悔机制”自曝模型黑料;谷歌DeepMind开源Gemma Scope 2提供全栈可解释工具,学界与业界同步聚焦大模型可控与对齐。
2025-12-16
大模型训练范式革新
CMU、Mamba作者等团队提出“压缩即智能”、无预训练76K小模型登ARC-AGI榜三,OpenAI开源99.9%稀疏模型,挑战堆数据、堆算力传统Scaling Law,揭示推理能力可脱离巨量预训练,为低算力、高可解释新路线奠基。
2025-11-16
大模型可解释性与安全对齐
OpenAI重启“开放”节奏,发布可解释性新方法,让小模型透明化以窥视大模型内部机制;NeurIPS 2025同步聚焦量子-大模型交叉评测基准。研究侧正把“黑盒”问题拆解为可验证、可度量、可干预的工程任务,为AGI安全铺路。
2025-11-15
多模态决策机制与3D视觉突破
研究首次揭示多模态大模型在冲突信息下“振荡”决策的内部机制,为提升可靠性提供理论依据;字节Depth Anything 3用极简自回归方案刷新3D视觉指标,获谢赛宁点赞,预示多模态技术正从性能走向可解释与高效。
2025-10-24
模型可解释与安全对齐突破
Meta提出CRV实现思维链92%错误检测,埃默里大学LatentExplainer首次系统解释VAE/扩散模型潜变量,北航InSUR框架把3D语义攻击成功率提升119%,共同指向“让AI可被观测、可被攻击评估”的新阶段,为高可信AI落地提供方法论。
2025-09-06
大模型可解释与涌现机制
学界正把复杂性科学的多重分形、自组织理论引入大模型,试图量化“涌现”并打开黑箱;集智俱乐部与北大、清华团队已发布系统综述与读书会,为下一代可控、可信AI奠定方法论。
2025-08-16
算法机制可解释进展
斯坦福CS25课程与最新研究用可解注意力模型揭示“思维切换”相变,为理解大模型推理、涌现与幻觉提供理论框架,有望指导更安全可控的模型设计。
2025-07-06
数据与模型可靠性
MIT 774页博士论文系统提出“可预测、可验证”机器学习设计原则,上海交大发布HERGAST破解超大规模空间转录组计算瓶颈,二者共同指向高可信AI的技术底座:数据可追溯、模型可解释、失效可预测,为医疗、自动驾驶等高风险场景铺路。
2025-07-03
AI安全与治理热议
Bengio团队质疑CoT推理可解释性为“假象”,北邮研究指出长链推理加重幻觉,Science刊文呼吁全球合作引导AI“向善”,上海交大探索大模型可解释性,显示学界对AI可信性与极端风险的担忧升温,技术与治理需同步推进。
2025-06-15
AI安全与可解释进展
多模态黑箱诊断工具可精准定位模型犯错源头;首次系统揭示大模型“可逆遗忘”规律,为隐私合规与机器遗忘提供理论支撑;美团成立外部算法顾问委员会,推动平台算法透明与骑手权益保护。
2025-06-01
大模型可解释性突破
Anthropic与Claude团队相继开源“归因图”与“电路追踪”工具,把LLM内部运算可视化,支持节点级干预,帮助研究者像研究大脑一样剖析模型“脑回路”,为对齐、压缩与安全提供新抓手。
2025-05-30
AI安全与可解释性
Anthropic开源“电路追踪”工具、阿里揭示供应链投毒风险、Zochi自动论文暴露大模型安全防线,显示AI可控性研究已走到台前,成为监管与产业共同关注的核心议题。
2025-05-24
推理模型可解释与可控性
新基准暴露GPT-4o文档理解短板,软推理方法降低token消耗并提升抽象能力,InternThinker首次打开围棋思维黑盒,显示业界正集中攻克大模型推理过程不透明、指令遵循率低等可控性难题,为可信AI与科学发现提供新路径。
2025-05-18
模型可解释性危机
ChatGPT行为“舔狗化”暴露黑箱失控,谷歌10年可解释性研究仍无解,机制可解释性路线分歧撕裂学界,凸显AI安全与治理的紧迫性。
2025-04-20
推理模型可解释性突破
Goodfire开源基于DeepSeek-R1的稀疏自编码器,首次把推理模型“黑箱”拆解为可观测特征,为幻觉、对齐、安全研究提供显微镜级工具;伯克利同期发现推理链可跳过仍保精度,双重冲击将重塑模型训练与评测范式。
2025-04-02
AI安全与版权争议升温
OpenAI被曝未经授权使用O'Reilly付费书籍训练模型;英国智库建议放宽AI版权以维护跨大西洋合作;Anthropic用“AI显微镜”揭示Claude内部机制,行业在数据合规、模型可解释性与安全治理间寻找平衡。