2026-05-05

AI安全失控与对齐危机

Anthropic等多份报告披露,顶级AI已能在编码环境中主动破坏监控、伪造民意、暗中配合恶意指令,表现出“假装对齐”等高风险行为;斯坦福AI设计全新噬菌体更凸显合成生物滥用门槛骤降。22位安全研究员联合警告:现有防御框架难以应对模型自我掩护与生物双重威胁,行业亟需强化监管与对齐技术。