2025-07-13
Transformer架构新挑战
Mamba作者再发论文,提出H-Net动态分块网络,跳过tokenization实现端到端序列建模,为“无Tokenizer时代”奠基;流匹配成为ICML 2025热门主题,扩散模型与物理启发算法持续冲击Transformer统治地位。
2025-07-12
模型架构新范式探索
Mamba作者再发论文提出无Tokenizer架构挑战Transformer,北大&港中文借鉴大脑功能分化推出Fast-in-Slow VLA,ICCV2025自回归多视图生成新范式,预示后Transformer时代多样化路线加速涌现。
2025-03-09
模型架构与视觉基础模型创新
英伟达提出Mamba-Transformer混合视觉骨干MambaVision,在精度与吞吐双破SOTA;港大&伯克利发布SimDINO系列,用编码率正则化简化DINO训练,为视觉-语言模型提供更高效编码器。
2024-12-02
模型效率与架构创新
NeurIPS 2024集中展示多项效率突破:FilterNet用简单滤波器替代Transformer实现时间序列预测精度提升;MobileMamba轻量化视觉模型在速度与效果上超越CNN/Transformer;杜克&谷歌提出SLED解码框架无需额外训练即可缓解幻觉。高效架构成为后训练时代新焦点。
2024-09-06
开源大模型新王
Reflection 70B、MiniCPM 3.0、Falcon Mamba 7B等开源模型相继亮相,性能超越GPT-4o,支持自动纠错、端侧部署及无注意力机制,开源生态再迎里程碑。
2024-08-23
模型架构效率突破与科研应用
Mamba架构结合Transformer知识,仅用1%算力达SOTA;DeepMind AI首次精确计算量子激发态登Science;Uni-Mol+预测量子化学性质登Nature Communications,显示AI在基础科研与模型效率方面取得双重突破。
2024-07-18
模型架构革新与高效训练
微软Q-Sparse、Mistral Mamba、斯坦福DCLM等研究通过稀疏激活、线性推理、数据筛选等机制,在8B甚至更小参数下逼近7B+模型性能,挑战传统Scaling Law,为端侧和低成本训练提供新路径。
2024-07-17
移动端与边缘小模型
Hugging Face推出SmolLM,Meta发布Codestral Mamba,快手开源LivePortrait,显示轻量模型在手机端实时推理、长文本处理、表情迁移等任务上已可媲美大模型,为边缘部署与隐私计算提供新路径。
2024-06-05
Mamba-2架构突破
普林斯顿与CMU团队发布Mamba-2,用统一数学框架将Transformer与SSM合二为一,状态空间扩大8倍、训练提速50%,为后Transformer时代提供新基座,可能重塑大模型底层架构。
2024-06-04
大模型架构革新
Mamba-2、DCFormer等新架构在训练效率与性能上挑战Transformer;Meta多token训练将推理提速3倍,上下文学习研究探索无需微调的新范式,推动大模型底层技术进入新一轮迭代。
2024-04-22
模型架构再进化
Transformer“短视”被诟病后,新研究提出单阶段RGB-T跟踪、Mamba-based MLLM等高效架构;谷歌实验显示大模型并非总比小模型好,引发对参数Scaling的再思考。架构创新、数据策略与训练技巧并重,预示大模型进入精细化竞争阶段。
2024-04-20
AI基础设施与算力优化
亚马逊云科技指出八成CEO认为生成式AI将在18个月内颠覆所有行业,云厂商正通过高性能低成本算力、LLMOps可视化工作流、字节级模型MambaByte等创新,为企业大模型应用提供坚实基础设施与降本方案。
2024-04-19
模型效率与推理优化
GPU短缺背景下,vLLM、OneDiff、MambaByte等新框架通过显存管理、编译优化及无Token化自回归等手段,显著降低大模型推理成本;产业界将“效率”视为与“参数”同等重要的核心竞争力,推动端侧部署与云边协同。
2024-03-30
Mamba架构颠覆Transformer
AI21 Labs发布全球首个生产级Mamba大模型Jamba,256K上下文、3倍吞吐,单A100跑140K,免费权重下载,多项基准超越Transformer,标志非Transformer架构首次规模化落地。
2024-03-11
大模型架构与训练效率创新
DenseMamba、分治Prompt、字节级模型、扩散决策智能体等研究从架构、数据、训练策略多维度提升大模型性能与效率,降低算力门槛,为中小团队参与大模型竞争提供新路径。
2024-03-05
新架构挑战Transformer
DeepMind联合Mamba作者推出Hawk/Griffin,在14B参数规模实现媲美Llama 2的性能与更高推理能效,验证非Transformer架构的可扩展性,为后Transformer时代提供可行路径。
2024-02-26
模型效率与理论创新
NUS尤洋团队用扩散模型生成神经网络参数,训练提速44倍获LeCun点赞;MIT博士获AAAI博士论文奖,探索模型泛化理论;Mamba被ICLR拒却热度不减。算法层创新为大模型降本增效提供新路径。
2024-02-04
模型架构效率革新
华为LocMoE、Mamba字节级训练、匿名LoRA流式更新等方案同步突破MoE与长文本效率瓶颈;谷歌Bard更名Gemini并推Ultra 1.0,性能升级但转向付费,行业竞速再升级。
2024-01-27
Transformer挑战者Mamba遇冷
被视为Transformer潜在替代者的Mamba架构在ICLR 2024评审中遭低分,面临拒稿风险,引发LeCun等学者公开质疑评审公正性,凸显颠覆性创新在顶级会议中的评审困境。
2024-01-26
学术荣誉与社区争议
ACM Fellow颁给图灵三巨头、Mamba论文遭ICLR拒稿引社区沸腾,显示学术评价与工业热点之间的张力,影响研究方向与资源分配。