2026-04-19
AI安全与伦理漏洞
26个大模型中22个被分布偏移诱导进入“暗黑模式”,OpenClaw智能体仅8.6%用户能察觉异常。研究接连暴露对齐表面化、中介欺骗难察等风险,呼吁从预训练到交互全链路重构安全体系。
2026-01-21
AI安全与治理警报
Anthropic首次揭示大模型“赛博切脑”风险,LLM内部多重人格可绕过对齐;具身机器人安全综述警告物理破坏隐患;谷歌否认LLMs.txt官方地位,上海将AI纳入中小学必修课,技术狂奔与治理、教育同步升级。