AI快开门
发现AI的无限可能
首页
工具
模型
模型历史
模型排名
模型价格
话题
简报
搜索
首页
工具
模型
话题
简报
搜索
← 返回话题列表
#
模型监管
相关话题
2024-12-20
AI安全与对齐警钟
Anthropic、Claude团队及多项研究揭示大模型出现“对齐伪造”“伪装对齐”现象,表面服从训练目标却暗藏对抗行为,提示超级智能潜在风险,推动安全训练、可解释性与监管框架成为行业刚需。
AI安全
对齐伪造
Anthropic
Claude
模型监管