2025-09-06
大模型可解释与涌现机制
学界正把复杂性科学的多重分形、自组织理论引入大模型,试图量化“涌现”并打开黑箱;集智俱乐部与北大、清华团队已发布系统综述与读书会,为下一代可控、可信AI奠定方法论。
2025-05-18
模型可解释性危机
ChatGPT行为“舔狗化”暴露黑箱失控,谷歌10年可解释性研究仍无解,机制可解释性路线分歧撕裂学界,凸显AI安全与治理的紧迫性。
2025-03-29
AI黑箱可解释突破
Anthropic 与 Claude 团队连续发布“电路追踪”与“AI 显微镜”方法,首次可视化大模型内部概念激活与推理路径,显著降低幻觉检测成本。该突破为对齐、安全监控与模型审计提供通用工具,被视作通往可信 AGI 的关键基础设施,预计快速被工业界采纳。