LMArena - AI话题 - AI快开门

2026-01-08

LMArena以众包盲测获1.5亿美元融资，估值17亿美元；潞晨云8元跑通强化学习全流程，后训练进入“按Token计费”时代。评测即流量入口，低成本RLHF成为新基础设施，降低初创公司追赶门槛。

2025-11-13

百度文心5.0、OpenAI GPT-5.1同日发布，均打出“原生全模态”“高情商”标签，支持文本/图像/语音/视频统一输入输出，刷新LMArena榜单并列第一，标志着大模型从单模态堆叠进入原生多模态时代，将重塑搜索、助手、内容生产全链路。

2025-08-08

GPT-5、Grok4、Claude 4 Opus、Gemini 2.5 Pro等旗舰模型在LMArena、SWE-Bench、NoCode-bench等多维基准展开对决，o3在首届大模型国际象棋对抗赛夺冠，显示行业竞争焦点正从参数规模转向可验证的综合能力。

2025-05-02

斯坦福、MIT等机构联合论文指控LMArena基准偏袒OpenAI、谷歌、Meta，Meta被曝提交27个Llama4版本仅取最高分，引发对大模型评测公正性的集体质疑，行业呼吁透明可审计的评测体系。

2025-03-27

谷歌深夜发布Gemini 2.5 Pro实验版，首次在LMArena榜单以40分优势超越GPT-4.5，代码、数学、推理全面屠榜，开启“思考模型”新范式；DeepSeek-V3-0324仅用后训练优化即实现同等超越，开源与闭源旗舰同频竞争，大模型性能天花板再被抬高。

# LMArena