AI快开门

发现最好的AI工具

2025-01-21

AI伦理与数据造假争议

OpenAI o3被曝提前获取FrontierMath真题,60位数学家“集体被耍”;好莱坞颁奖季再陷AI道德困境,凸显Benchmark公信力与创意行业失业焦虑。
2024-11-16

大模型数学与推理能力瓶颈

FrontierMath新基准测试揭示主流大语言模型在复杂数学推理上正确率不足2%,凸显其逻辑推理短板;同时业界持续争论LLM是否具备真正“推理”能力,提示通往AGI仍有关键缺口,亟需新算法与评测体系突破。