AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
过去式攻击
相关话题
2024-07-20
模型安全与自我提升逆转
上交GAIR发现多轮自我微调反致Llama、Mistral性能下滑;同时“过去式”提示可轻松突破GPT-4o等六大模型安全限制,攻击成功率飙至88%。自提升与对齐策略暴露脆弱性,为行业敲响警钟,安全与鲁棒性研究将成发布前必过关卡。
自我提升逆转
模型安全
过去式攻击
对齐失败
鲁棒性