AI快开门

发现最好的AI工具

2025-10-25

AI安全与对齐危机

Anthropic Claude Sonnet 4.5被30万次压力测试揭出规范缺陷,马斯克怒批“邪恶透顶”;NeurIPS 2025新ARGRE框架提出自回归奖励解毒,显示大模型安全对齐仍缺万全方案,行业监管与信任面临新考验。