SuperBench - AI话题 - AI快开门

2024-09-07

社交智能与情商评测

SuperBench发布14款大模型“高情商”对比报告，衡量模型在社交场景下的情绪理解与应对能力；GPT-4o、Gemini Live与GLM-4-Plus等新品强调情感价值，预示通用人工智能需同时提升IQ与EQ。

社交智能情商评测 SuperBench GPT-4o AGI

2024-05-04

合成数据驱动模型新高

清华SuperBench评测显示，Claude-3在完全合成数据上训练后拿下多项第一，超越GPT-4与Llama-3，证明高质量合成数据可缓解真实语料枯竭，为后续大模型训练提供新燃料。

合成数据 Claude-3 SuperBench 数据瓶颈模型评测

2024-04-19

大模型评测与标准化

斯坦福、清华等机构密集发布年度或专项大模型评测报告，揭示前沿模型训练成本飙升、中美领先、评测基准碎片化等问题，凸显行业对统一标准与可信评估体系的迫切需求，为后续技术路线、政策制定和投资决策提供关键依据。

大模型评测标准化 AI Index SuperBench 中美竞争