2025-02-21
高性能AI编译革命
Sakana AI推出全球首个“AI CUDA工程师”,自动把PyTorch代码转成优化CUDA内核,速度提升10-100倍,Together AI再获3亿美元融资,深推理模型引爆GPU算力新需求。
2024-09-16
神经网络架构新范式:KAN挑战MLP
MIT华人团队提出Kolmogorov–Arnold Network(KAN),以可解释、高保真的激活函数替代传统MLP的固定激活,在函数拟合与科学发现任务上显著降低参数量的同时提升精度,被视为打开神经网络黑盒的新范式,有望重塑深度学习基础架构。
2024-05-28
模型架构革新与训练效率提升
斯坦福提出SimPO,无需参考模型的RLHF新平替,让8B模型击败Claude-3 Opus;KAN网络以可学习激活函数替代MLP,参数更少、可解释性更强;清华团队发布YOLOv10,性能大幅提升。训练策略与架构创新同步推进,降低算力门槛同时拔高模型上限。
2024-05-20
模型训练与架构创新
Meta 34B Chameleon 10万亿token训练刷新SOTA,KAN卷积化、GPU高级语言、扩散模型替代湍流模拟等底层创新涌现;LoRA在数学编程任务上不敌全量微调,提示“参数高效”并非万能,训练范式仍在快速演化。
2024-05-15
AI for Science 与模型创新
MIT 团队借 KAN 网络发现全新物理方程,纽约大学研究质疑思维链必要性,同时 RNA 语言模型、集值系统辨识等成果涌现,显示 AI 在基础科学与模型架构层面的持续突破。
2024-05-04
KAN架构颠覆MLP
MIT等机构提出Kolmogorov-Arnold Network(KAN),用可学习的单变量函数替代固定激活函数,在数学发现、物理模拟等任务上以200参数媲美30万参数MLP,兼具高精度与可解释性,被视为可能取代MLP的新一代神经网络范式。
2024-05-03
模型架构新探索
Transformer核心组件MLP遭遇KAN挑战,Meta推出一次预测多token的编程模型实现3倍推理加速,显示基础架构仍在快速迭代,潜在重塑未来大模型计算效率与扩展范式。
2024-05-02
高效架构与训练框架创新
KAN神经网络以200参数复现30万参数性能,GraNNDis框架实现大规模图神经网络分布式训练,共同揭示新架构与系统优化正在突破参数规模瓶颈,为端侧和巨模型提供新路径。