2025-12-16
大模型训练范式革新
CMU、Mamba作者等团队提出“压缩即智能”、无预训练76K小模型登ARC-AGI榜三,OpenAI开源99.9%稀疏模型,挑战堆数据、堆算力传统Scaling Law,揭示推理能力可脱离巨量预训练,为低算力、高可解释新路线奠基。
2025-12-01
Scaling Law遇瓶颈
Ilya公开宣称“单纯堆参数已死”,SemiAnalysis爆料OpenAI两年半未跑出新一代前沿模型,引发行业对“后预训练”范式的集体反思,世界模型、持续学习、数据合成成为新焦点。
2025-11-27
Scaling时代终结
Ilya Sutskever等顶级研究者连续发声,认为仅靠堆参数、堆算力的“Scaling Law”已撞墙,AI需回归基础科学与新范式。观点引发行业共振,标志大模型竞争从‘暴力美学’转向‘科学探索’,或将重塑研发资源分配与创业逻辑。
2025-05-05
预训练数据反噬现象
CMU等顶级高校发现“灾难性过度训练”:预训练数据过量反而损害下游微调性能,挑战“数据即燃料”信条,将促使行业重新制定数据配比、课程学习与早期停止策略。
2025-02-03
Scaling Law再讨论
业界热议“堆参数”边际收益递减,Cameron Wolfe长文指出大模型扩展面临数据与算力瓶颈,呼吁转向高效架构、数据精炼及跨学科方法;同期多项研究聚焦知识蒸馏、高质量数据集构建,预示后预训练时代“精炼+蒸馏”成新主线。
2025-01-10
具身智能与机器人大模型突破
银河通用发布全球首个纯仿真数据预训练的具身抓取大模型GraspVLA,实现零真机数据泛化;同时出现触觉传感器、智能手杖等硬件创新,标志着机器人从“感知”走向“行动”的拐点,具身智能进入产业化前夜。
2025-01-01
AI for Science新进展:DNA、临界点与图推理
InstaDeep联合英伟达推出25亿参数DNA预训练模型,Nature子刊发表深度学习预测速率诱导临界点方法,Google论文揭示Transformer在图算法上的潜力,显示基础模型正向生物、气候、数学等硬核科研纵深渗透。
2024-12-16
预训练时代终结与Scaling新范式
Ilya、OpenAI核心成员及多篇报道共同指出:大模型‘暴力预训练’边际收益递减,Scaling Law正转向推理时计算、强化学习与专用架构。该判断将重塑算力需求、创业方向与资本布局,被视为大模型下半场的分水岭。
2024-12-15
预训练时代终结
OpenAI前首席科学家Ilya Sutskever在NeurIPS 2024连续发声,宣称互联网可用数据已逼近极限,基于海量数据的传统预训练范式即将终结,未来AI需转向具备自我意识的超级智能与数据高效利用的新范式,引发学界与产业界对Scaling Law的再思考。
2024-12-14
预训练时代终结论
OpenAI 前首席科学家 Ilya Sutskever 在 NeurIPS 2024 公开断言:互联网文本数据已被“榨干”,基于大规模预训练的传统范式即将终结。该观点引发全球研发路线震荡,行业被迫加速探索后预训练时代的新算法与数据策略,直接影响未来 3-5 年模型迭代节奏与资本投向。
2024-11-11
Scaling Law受质疑
OpenAI被曝GPT-5进展不及预期,下一代模型方向大改,“scaling law撞墙”引爆社区讨论;叠加奥特曼称AGI或2025降临,行业对预训练红利见顶与工程化路线展开激烈辩论。
2024-10-15
大模型推理与架构突破
o1类“慢思考”推理、北大MixCon新架构、合成数据预训练等多篇研究,将大模型从“快答”推向“深算”,标志着生成式AI进入推理密集型新阶段,对科研、编程、复杂决策场景具有颠覆性潜力。
2024-10-07
机器人通用策略新范式
MIT 与 Meta FAIR 提出异构预训练 Transformer(HPT),在无需重新采集全量数据的情况下把不同机器人感知-动作空间统一,多任务性能提升超 20%,为“一个模型控制多种本体”的通用机器人奠定基础。
2024-06-10
3D生成与数据合成突破
上海交大、港中文联合推出Bootstrap3D框架,5秒级3D生成并开源合成数据集;HuggingFace发布FineWeb技术报告,打造迄今最大规模高质量预训练语料。两者共同揭示“合成数据+精细过滤”正成为多模态与大模型性能跃迁的新燃料。
2024-03-31
时空大模型前沿综述
最新综述系统梳理面向时间序列与时空数据的大模型(LM4TS & LM4STD),指出其在交通、气象、金融等下游任务的巨大潜力,呼吁社区关注数据构建与预训练策略。
2024-01-29
模型训练与数据工程
UIUC团队综述代码数据对LLM的三大增益;范畴论课程尝试为机器学习奠定数学基础;何恺明-谢赛宁解构扩散模型回归经典去噪自编码器。研究从数据配方、数学原理到模型架构多维优化,为大模型持续 scaling 提供理论与工程支撑。