AI快开门

发现最好的AI工具

2026-01-08

模型评测与后训练新范式

LMArena以众包盲测获1.5亿美元融资,估值17亿美元;潞晨云8元跑通强化学习全流程,后训练进入“按Token计费”时代。评测即流量入口,低成本RLHF成为新基础设施,降低初创公司追赶门槛。
2025-11-23

大模型评测与PC端革新

卡帕西推出匿名横评玩法,四大模型盲评结果出人意料;同时AI打破PC性能天花板,终端侧大模型体验升级,推动消费级硬件进入“AI原生”时代。
2025-08-08

模型评测与基准升级

GPT-5、Grok4、Claude 4 Opus、Gemini 2.5 Pro等旗舰模型在LMArena、SWE-Bench、NoCode-bench等多维基准展开对决,o3在首届大模型国际象棋对抗赛夺冠,显示行业竞争焦点正从参数规模转向可验证的综合能力。
2025-05-03

大模型评测与可信危机

Llama4被曝在发布前私下测试27个版本并只公布最佳成绩,引发对行业榜单公信力的新一轮质疑;美国版权局首次批量注册AI增强作品,则把“模型输出能否受保护”推向立法焦点。两件事共同揭示:当技术迭代速度远超标准与法规,排行榜与知识产权规则亟需透明化升级,否则将拖累研发互信与商业落地。
2025-05-02

LMArena榜单操控风波

斯坦福、MIT等机构联合论文指控LMArena基准偏袒OpenAI、谷歌、Meta,Meta被曝提交27个Llama4版本仅取最高分,引发对大模型评测公正性的集体质疑,行业呼吁透明可审计的评测体系。
2024-12-20

中国标准与评测体系

工信部成立AI标准化技术委员会,智源发布覆盖百余模型的FlagEval评测,首次加入金融量化、多模态等实战指标,推动国产大模型在统一标尺下迭代,提升国际话语权。
2024-08-15

大模型技术突破与评测

Llama-8B借助搜索引擎在部分任务上超越GPT-4o,OpenAI发布更可靠的SWE-bench Verified编程评测集,Claude与Grok2相继上线“提示缓存”与FLUX.1图像生成,显示基础模型在效率、多模态和工程化方面的持续迭代,为开发者提供更便宜、更快速的API选项。
2024-07-18

大模型评测与缺陷暴露

多篇报道聚焦大模型在数学、常识比较等基准上的“翻车”现象,贾佳亚团队、ACL2024、SIGIR2024等提出新评测框架,揭示高分低能与token偏见问题,推动行业重新审视模型可靠性与评测标准。
2024-06-30

数据集与评测基础设施

MMDU多图多轮对话数据集、LLM自诊断缺陷框架、4D开源81K数据集等相继发布,表明高质量数据与自动化评测已成为模型迭代的新战场,决定下一代大模型性能上限与落地可靠性。
2024-06-08

大模型评测与高考挑战

12家国产大模型公开应战高考数学卷却集体暴露逻辑Bug,AI写作文3秒完篇引热议,凸显当前大模型在严谨推理与可信评测上的短板,推动行业建立更贴近人类认知的测评体系。
2024-05-29

顶级模型评测与认知框架

CoT提出者Jason Wei指出当前大模型基准存在「七宗罪」,难以全面评估能力;复旦&上海AI Lab上线3DGen-Arena,用众包方式360°评测3D生成;哈工大与度小满提出SAPT共享注意力框架,提升持续学习性能。行业开始反思评估体系本身,推动更科学的测试基准,将决定下一代模型的优化方向与竞争格局。
2024-05-18

大模型评测与性能瓶颈

智源发布140+中外大模型8万题全景评测,揭示能力差异;同时业界出现“收益递减”讨论,认为参数膨胀带来的提升趋缓,呼吁回归数据质量与评测科学。
2024-05-04

合成数据驱动模型新高

清华SuperBench评测显示,Claude-3在完全合成数据上训练后拿下多项第一,超越GPT-4与Llama-3,证明高质量合成数据可缓解真实语料枯竭,为后续大模型训练提供新燃料。
2024-04-23

大模型评测与竞技

75万轮一对一PK显示GPT-4仍居榜首,Llama 3位列第五;国内首次48小时大模型极限挑战赛落幕,为模型能力评估提供对抗式新基准,推动评测体系从静态榜单向动态竞技演进。
2024-04-19

大模型评测与标准化

斯坦福、清华等机构密集发布年度或专项大模型评测报告,揭示前沿模型训练成本飙升、中美领先、评测基准碎片化等问题,凸显行业对统一标准与可信评估体系的迫切需求,为后续技术路线、政策制定和投资决策提供关键依据。
2024-04-03

长上下文安全与评测新方法

Anthropic、斯坦福与腾讯相继曝光“长上下文越狱”风险:Claude、GPT-4、Llama-2在长提示下均被诱导泄露敏感信息;腾讯提出“数星星”评测法替代“大海捞针”,更精准衡量模型长依赖能力。长文本既是产品卖点也是安全软肋,催生新的评测与防护标准,将直接影响大模型商业可信度和合规节奏。
2024-03-01

国产大模型技术突破

国内团队在上下文扩展、多模态及评测体系上连续取得进展:陈丹琦团队将Llama-2上下文扩至128k且内存降低83%;阿里EMO实现单图+音频驱动肖像视频;国家队评测显示国产模型数学能力跻身前三。