大模型评估 - AI话题 - AI快开门

2024-11-09

大模型评测与可信水印

上交提出不依赖输出的Diff-eRank新指标入选NeurIPS，谷歌DeepMind的SynthID-Text水印登上Nature，均指向“如何可信地评估并追踪大模型”这一行业核心诉求。

大模型评估可信AI 水印技术 Nature NeurIPS

2024-05-31

全球大模型评测升级

Scale AI推出私有专家数据SEAL排行榜，27岁华裔创始人王Alexandr挑战UC伯克利权威，OpenAI研究员Jason Wei长文解读LLM评估方法论，反映业界对“唯基准论”的反思，推动大模型评测向更严谨、动态、场景化方向演进。

SEAL 大模型评估 ScaleAI OpenAI 排行榜