Reflection - AI话题

2024-09-15

Reflection 模型被指成绩造假并道歉，MMLU-Pro 等新基准紧急上线，英伟达科学家称“现有测试已失灵”。行业面临基准饱和、刷榜泛滥的信任危机，推动更严格、可解释的评价体系成为共识。

2024-09-08

ICML热议“边推理边纠错”，Reflection 70B被质疑基模造假，ChatGPT连续30次修改仍出错。行业开始正视幻觉与自我纠正难题，推理可信度成为大模型商业化最后一公里，决定能否深入医疗、金融等高敏场景。

2024-09-07

Reflection 70B通过“反思”标签在推理中实时自检并纠正幻觉，数学评测99.2分超越GPT-4o与Llama3.1 405B，开源社区迎来新标杆；阿里Qwen一度“404”虚惊，凸显开源模型托管安全与信任机制的重要性。

2024-09-06

Reflection 70B、MiniCPM 3.0、Falcon Mamba 7B等开源模型相继亮相，性能超越GPT-4o，支持自动纠错、端侧部署及无注意力机制，开源生态再迎里程碑。

AI快开门