AI快开门

发现最好的AI工具

2025-03-29

大模型安全攻防升级

北卡&复旦团队提出“思维链劫持”(H-CoT) 攻击,利用 o1/o3、R1 等推理模型自我反思特性,将拒绝率从 98% 降至 2%。研究揭示透明推理与安全性存在根本张力,促使 OpenAI、DeepSeek 紧急更新对齐策略。该漏洞影响金融、医疗等高价值场景,催化“安全即服务”新市场。