AI快开门

发现最好的AI工具

2025-11-16

大模型可解释性与安全对齐

OpenAI重启“开放”节奏,发布可解释性新方法,让小模型透明化以窥视大模型内部机制;NeurIPS 2025同步聚焦量子-大模型交叉评测基准。研究侧正把“黑盒”问题拆解为可验证、可度量、可干预的工程任务,为AGI安全铺路。