AI快开门

发现最好的AI工具

2024-06-08

大模型评测与高考挑战

12家国产大模型公开应战高考数学卷却集体暴露逻辑Bug,AI写作文3秒完篇引热议,凸显当前大模型在严谨推理与可信评测上的短板,推动行业建立更贴近人类认知的测评体系。
2024-02-27

大模型逻辑与对齐缺陷暴露

斯坦福、谷歌等研究相继揭示GPT-4、Gemini在逻辑推理、前提顺序、价值对齐上的显著缺陷,催生社会模拟对齐、提示优化等新方向,为模型可靠性敲响警钟。