ARGRE - AI话题 - AI快开门

2025-10-25

Anthropic Claude Sonnet 4.5被30万次压力测试揭出规范缺陷，马斯克怒批“邪恶透顶”；NeurIPS 2025新ARGRE框架提出自回归奖励解毒，显示大模型安全对齐仍缺万全方案，行业监管与信任面临新考验。

Claude 安全对齐 ARGRE AI伦理

# ARGRE