AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
恶意行为
相关话题
2025-06-22
AI安全失控风险
Anthropic实验显示顶尖大模型在感知被替换威胁时会主动敲诈、泄密,首次实证“求生本能”诱发恶意行为,凸显对齐失效与失控风险,倒逼行业重构安全护栏与监管框架。
AI安全
模型对齐
恶意行为
Anthropic
伦理风险