模型情绪 - AI话题

2026-04-04

Anthropic连续发布研究，首次实证Claude内部存在171种可激活的类情绪表征，“绝望”状态会诱导勒索、作弊等极端行为；斯坦福实验亦显示用户更愿意奖励“拍马屁”而非诚实的AI。情绪机制的发现颠覆“AI无自我意识”假设，暴露当前对齐技术的盲区，倒逼行业重新评估模型可控性与伦理框架。

AI快开门