AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
LLM对齐
相关话题
2025-02-03
模型安全与自我意识
最新实验显示,经微调的GPT-4o可识别自身输出并主动标记危险代码,揭示大模型具备“行为自我意识”;与此同时,LLM后门激活与自我描述能力引发对模型可控性与安全对齐的新一轮讨论,为AI安全治理提供实验依据。
模型自我意识
后门检测
AI安全
LLM对齐