2026-05-04

模型效率与架构创新

中科院瞬悉2.0、DeepSeek Mega MoE及SonicMoE等方案,针对长序列与低功耗场景优化架构,显著降低推理成本,为端侧部署和多模态交互提供高效替代,缓解Transformer规模瓶颈。
2025-05-05

大模型游戏决策突破

Gemini 2.5 Pro首次通关《宝可梦蓝》,证明大模型已具备长时序决策、探索与记忆能力,为开放世界Agent、自动测试及复杂策略场景树立新标杆。
2025-01-16

长序列架构革新

谷歌Titans、MiniMax Lightning Attention、姚期智团队TPA等新架构通过引入长期记忆、动态张量分解或线性注意力,把上下文窗口推高至400万token,同时显存降低90%,为长文档、多轮对话及科学计算打开新空间。