AI快开门

发现最好的AI工具

2024-09-08

大模型推理可靠性反思

ICML热议“边推理边纠错”,Reflection 70B被质疑基模造假,ChatGPT连续30次修改仍出错。行业开始正视幻觉与自我纠正难题,推理可信度成为大模型商业化最后一公里,决定能否深入医疗、金融等高敏场景。
2024-09-07

大模型幻觉治理与开源新王

Reflection 70B通过“反思”标签在推理中实时自检并纠正幻觉,数学评测99.2分超越GPT-4o与Llama3.1 405B,开源社区迎来新标杆;阿里Qwen一度“404”虚惊,凸显开源模型托管安全与信任机制的重要性。