2024-09-08
大模型推理可靠性反思
ICML热议“边推理边纠错”,Reflection 70B被质疑基模造假,ChatGPT连续30次修改仍出错。行业开始正视幻觉与自我纠正难题,推理可信度成为大模型商业化最后一公里,决定能否深入医疗、金融等高敏场景。
2024-09-07
大模型幻觉治理与开源新王
Reflection 70B通过“反思”标签在推理中实时自检并纠正幻觉,数学评测99.2分超越GPT-4o与Llama3.1 405B,开源社区迎来新标杆;阿里Qwen一度“404”虚惊,凸显开源模型托管安全与信任机制的重要性。