2026-01-04
Scaling Law受挑战与架构创新
DeepSeek提出流形约束超连接(mHC)改造残差连接、KAN作者再发檄文反思暴力堆参数,显示行业开始探索不依赖纯规模扩张的新架构,有望降低训练成本并提升可解释性。
2026-01-01
Scaling Law瓶颈与范式反思
Ilya、Hinton、LeCun等顶级学者公开质疑“堆算力+堆参数”路线;NUS尤洋指出300亿美元也难再训出GPT-4级跃迁,行业需回归架构创新与理论突破,预示大模型竞赛从“暴力美学”转向效率与科学驱动。
2025-10-26
Transformer架构反思与后注意力时代
“Attention”作者公开呼吁告别Transformer,叠加NeurIPS高分论文用判别式监督重塑推理LLM,凸显社区对Scaling Law边际效应的担忧,后Transformer架构与训练策略成为下一波核心竞争点。
2025-07-11
模型架构与训练新范式
北大/华为开源纯卷积DiC,速度超DiT 5倍;Inception Labs推扩散式语言模型Mercury,写代码快10倍;上交团队凭DeepSeek-R1外挂刷新“人类最后考试”国内纪录。后Transformer创新进入爆发期,训练效率与推理质量双升。
2025-03-30
模型架构与训练新范式
OverLoCK“复活”卷积网络作为视觉基础模型;浙大团队提出“下一邻域”视觉生成范式,吞吐提升13.8倍;无标注调优将Llama 3.3 70B推至GPT-4o水平,显示架构创新与训练策略正重塑模型性能边界。
2025-02-11
Scaling Law与架构争议
OpenAI、奥特曼重申Scaling Law继续有效并预测成本年降10倍,而清华&字节研究指Transformer组合能力逼近上限,MIT提出COAT自回归搜索新框架,学界与产业界对下一代架构路径分歧加剧。
2025-01-03
非Transformer新架构崛起
RWKV、LiNo等新型架构接连获投或发论文,力图打破Transformer垄断,降低算力依赖并提升长序列效率,标志大模型基础结构进入多元竞争时代,对芯片、框架及下游应用影响深远。
2024-10-01
模型架构新探索与评测
MIT团队基于非Transformer架构推出新模型,国防科大提出灵巧手抓取迁移方案,智源等机构征集2024 AI十大趋势,显示研究者在架构创新、跨任务迁移及行业洞察上的持续探索。
2024-06-12
国产大模型与架构创新突破
清华&蚂蚁TimeMixer纯MLP架构刷新时序预测SOTA,商汤Piccolo2中文Embedding登顶SuperCLUE,讯飞星火V4.0即将发布,国产大模型在架构、基准与多模态能力上连续突破,缩小与GPT-4差距。
2024-06-05
Mamba-2架构突破
普林斯顿与CMU团队发布Mamba-2,用统一数学框架将Transformer与SSM合二为一,状态空间扩大8倍、训练提速50%,为后Transformer时代提供新基座,可能重塑大模型底层架构。
2024-05-02
高效架构与训练框架创新
KAN神经网络以200参数复现30万参数性能,GraNNDis框架实现大规模图神经网络分布式训练,共同揭示新架构与系统优化正在突破参数规模瓶颈,为端侧和巨模型提供新路径。
2024-04-10
大模型架构与训练创新
Karpathy用1000行C语言复现GPT-2、Meta反向训练破解“逆转诅咒”、北大aiXcoder-7B开源,显示社区正用极简代码、新训练策略和领域专用模型挑战Transformer霸权,推动高效、低成本大模型落地。
2024-03-11
大模型架构与训练效率创新
DenseMamba、分治Prompt、字节级模型、扩散决策智能体等研究从架构、数据、训练策略多维度提升大模型性能与效率,降低算力门槛,为中小团队参与大模型竞争提供新路径。