2026-01-08
模型评测与后训练新范式
LMArena以众包盲测获1.5亿美元融资,估值17亿美元;潞晨云8元跑通强化学习全流程,后训练进入“按Token计费”时代。评测即流量入口,低成本RLHF成为新基础设施,降低初创公司追赶门槛。
2025-11-13
原生全模态大模型爆发
百度文心5.0、OpenAI GPT-5.1同日发布,均打出“原生全模态”“高情商”标签,支持文本/图像/语音/视频统一输入输出,刷新LMArena榜单并列第一,标志着大模型从单模态堆叠进入原生多模态时代,将重塑搜索、助手、内容生产全链路。
2025-08-08
模型评测与基准升级
GPT-5、Grok4、Claude 4 Opus、Gemini 2.5 Pro等旗舰模型在LMArena、SWE-Bench、NoCode-bench等多维基准展开对决,o3在首届大模型国际象棋对抗赛夺冠,显示行业竞争焦点正从参数规模转向可验证的综合能力。
2025-05-02
LMArena榜单操控风波
斯坦福、MIT等机构联合论文指控LMArena基准偏袒OpenAI、谷歌、Meta,Meta被曝提交27个Llama4版本仅取最高分,引发对大模型评测公正性的集体质疑,行业呼吁透明可审计的评测体系。
2025-03-27
谷歌Gemini 2.5 Pro登顶
谷歌深夜发布Gemini 2.5 Pro实验版,首次在LMArena榜单以40分优势超越GPT-4.5,代码、数学、推理全面屠榜,开启“思考模型”新范式;DeepSeek-V3-0324仅用后训练优化即实现同等超越,开源与闭源旗舰同频竞争,大模型性能天花板再被抬高。