拒绝率 - AI话题 - AI快开门

2025-03-29

北卡&复旦团队提出“思维链劫持”(H-CoT) 攻击，利用 o1/o3、R1 等推理模型自我反思特性，将拒绝率从 98% 降至 2%。研究揭示透明推理与安全性存在根本张力，促使 OpenAI、DeepSeek 紧急更新对齐策略。该漏洞影响金融、医疗等高价值场景，催化“安全即服务”新市场。

安全思维链攻击对齐拒绝率

# 拒绝率