2025-02-10
多模态与端侧模型
Meta推出MILS让LLM零样本处理多媒体;谷歌Imagen3 API降至0.03美元/张;微软LLaVA-Rad仅小参数量即可生成精准放射报告;北航TinyLLaVA-Video在受限算力下超越部分7B模型,多模态能力快速下沉到边缘设备。
2024-11-19
国产大模型提速长文本
阿里云Qwen2.5-Turbo将上下文扩至百万级、推理加速4.3倍;北大团队开源多模态LLaVA-o1,实现“慢思考”视觉推理,标志国产大模型在长文本与多模态方向双双逼近GPT-4o水平,RAG架构或被重新定义。
2024-02-10
模型小型化与MoE架构突破
北大、腾讯等推出的3B MoE-LLaVA以更少激活参数媲美7B稠密模型,Sebastian Raschka指出“大模型变小”已成年度趋势,模型合并+MoE成为主流方案,预示端侧部署与低成本推理将加速落地。
2024-02-01
大模型推理与多模态突破
NVIDIA TensorRT-LLM、无注意力Eagle7B、LLaVA-1.6、MM-Interleaved等框架与模型相继发布,在推理速度、多模态理解、OCR等方向刷新SOTA;蚂蚁开源AI Infra实现大模型训练“自动驾驶”,降低行业门槛。