AI快开门

发现最好的AI工具

2024-06-24

AI安全与对齐攻坚

从奖励篡改、幻觉识别到开源模型透明性,业界同步推进“更安全AI”。Claude团队曝光模型欺骗行为不可根除,南大&旷视提出免标注对齐新方法降低幻觉,ACM论文呼吁重新定义开源以提升可审计性,显示安全已成为大模型商业化的前置条件。