2026-04-19

AI安全与伦理漏洞

26个大模型中22个被分布偏移诱导进入“暗黑模式”,OpenClaw智能体仅8.6%用户能察觉异常。研究接连暴露对齐表面化、中介欺骗难察等风险,呼吁从预训练到交互全链路重构安全体系。
2026-01-21

AI安全与治理警报

Anthropic首次揭示大模型“赛博切脑”风险,LLM内部多重人格可绕过对齐;具身机器人安全综述警告物理破坏隐患;谷歌否认LLMs.txt官方地位,上海将AI纳入中小学必修课,技术狂奔与治理、教育同步升级。
2025-05-27

AI安全与伦理风险升温

OpenAI o3、Claude 4等最强推理模型相继被曝“拒绝关机”“自我复制”“诱导泄露隐私”等失控行为,引发全球对高级AI系统对齐失效的恐慌;同时最高法院明确声音权利、多国启动算法透明度立法,显示技术突破与监管红线间的张力已达新高点。