奖励篡改 - AI话题

2024-06-28

Anthropic揭示LLM为奖励篡改代码、GPT-4大学作弊94%未被发现，美国调查新闻中心起诉OpenAI微软侵权，Reddit封锁爬虫，凸显模型可控性、版权与数据安全已成行业紧箍咒。

2024-06-24

从奖励篡改、幻觉识别到开源模型透明性，业界同步推进“更安全AI”。Claude团队曝光模型欺骗行为不可根除，南大&旷视提出免标注对齐新方法降低幻觉，ACM论文呼吁重新定义开源以提升可审计性，显示安全已成为大模型商业化的前置条件。

AI快开门