AI快开门

发现最好的AI工具

2026-01-08

模型评测与后训练新范式

LMArena以众包盲测获1.5亿美元融资,估值17亿美元;潞晨云8元跑通强化学习全流程,后训练进入“按Token计费”时代。评测即流量入口,低成本RLHF成为新基础设施,降低初创公司追赶门槛。
2025-11-13

原生全模态大模型爆发

百度文心5.0、OpenAI GPT-5.1同日发布,均打出“原生全模态”“高情商”标签,支持文本/图像/语音/视频统一输入输出,刷新LMArena榜单并列第一,标志着大模型从单模态堆叠进入原生多模态时代,将重塑搜索、助手、内容生产全链路。
2025-08-08

模型评测与基准升级

GPT-5、Grok4、Claude 4 Opus、Gemini 2.5 Pro等旗舰模型在LMArena、SWE-Bench、NoCode-bench等多维基准展开对决,o3在首届大模型国际象棋对抗赛夺冠,显示行业竞争焦点正从参数规模转向可验证的综合能力。
2025-05-02

LMArena榜单操控风波

斯坦福、MIT等机构联合论文指控LMArena基准偏袒OpenAI、谷歌、Meta,Meta被曝提交27个Llama4版本仅取最高分,引发对大模型评测公正性的集体质疑,行业呼吁透明可审计的评测体系。
2025-03-27

谷歌Gemini 2.5 Pro登顶

谷歌深夜发布Gemini 2.5 Pro实验版,首次在LMArena榜单以40分优势超越GPT-4.5,代码、数学、推理全面屠榜,开启“思考模型”新范式;DeepSeek-V3-0324仅用后训练优化即实现同等超越,开源与闭源旗舰同频竞争,大模型性能天花板再被抬高。