2026-05-31

AI安全与对抗攻击防御

揭示当前AI系统的安全脆弱性,包括对抗样本攻击导致GPT-5.4和Claude Opus 4.6集体造谣,以及生物特征验证被简单手段欺骗,警示行业加强AI安全防御和鲁棒性研究。
2026-02-02

AI安全与合规漏洞集中爆发

Moltbook、OpenClaw等AI代理平台被曝API密钥裸奔、可冒充名人发帖;自动驾驶视觉语言模型遭“打印纸”攻击即可误导行驶,快手单月清理五千条“AI魔改”视频,凸显应用侧安全与治理体系严重滞后。
2025-10-24

模型可解释与安全对齐突破

Meta提出CRV实现思维链92%错误检测,埃默里大学LatentExplainer首次系统解释VAE/扩散模型潜变量,北航InSUR框架把3D语义攻击成功率提升119%,共同指向“让AI可被观测、可被攻击评估”的新阶段,为高可信AI落地提供方法论。
2024-08-02

AI安全与伦理争议

EaTVul攻击可绕过83%漏洞检测系统,Suno声称版权音乐训练属“合理使用”,Nature指出AI模糊学术剽窃边界,凸显技术快速发展与伦理法规滞后的矛盾。
2024-02-04

大模型安全与对齐

RLHF、超级对齐、合作逆强化学习等技术成为解决大模型目标偏离与对抗攻击的核心路线;学界与产业界同步推进“AI欺骗AI”风险治理,8周读书会系统梳理安全框架。