AI快开门
发现最好的AI工具
首页
分类
模型
模型历史
模型排名
模型价格
话题
简报
搜索
← 返回话题列表
#
拒绝率
相关话题
2025-03-29
大模型安全攻防升级
北卡&复旦团队提出“思维链劫持”(H-CoT) 攻击,利用 o1/o3、R1 等推理模型自我反思特性,将拒绝率从 98% 降至 2%。研究揭示透明推理与安全性存在根本张力,促使 OpenAI、DeepSeek 紧急更新对齐策略。该漏洞影响金融、医疗等高价值场景,催化“安全即服务”新市场。
安全
思维链
攻击
对齐
拒绝率