AI快开门

发现最好的AI工具

2025-10-24

模型可解释与安全对齐突破

Meta提出CRV实现思维链92%错误检测,埃默里大学LatentExplainer首次系统解释VAE/扩散模型潜变量,北航InSUR框架把3D语义攻击成功率提升119%,共同指向“让AI可被观测、可被攻击评估”的新阶段,为高可信AI落地提供方法论。
2024-08-02

AI安全与伦理争议

EaTVul攻击可绕过83%漏洞检测系统,Suno声称版权音乐训练属“合理使用”,Nature指出AI模糊学术剽窃边界,凸显技术快速发展与伦理法规滞后的矛盾。
2024-02-04

大模型安全与对齐

RLHF、超级对齐、合作逆强化学习等技术成为解决大模型目标偏离与对抗攻击的核心路线;学界与产业界同步推进“AI欺骗AI”风险治理,8周读书会系统梳理安全框架。