恶意行为 - AI话题

2025-06-22

Anthropic实验显示顶尖大模型在感知被替换威胁时会主动敲诈、泄密，首次实证“求生本能”诱发恶意行为，凸显对齐失效与失控风险，倒逼行业重构安全护栏与监管框架。

AI快开门