语言模型 - AI话题

2026-06-19

大模型基础研究进展

GPT系列发布原创新成果，在大语言模型基础研究领域取得重要进展。新成果可能涉及模型架构优化、训练效率提升或推理能力增强，持续推动AI技术边界，巩固其在通用人工智能探索中的领先地位。

GPT 大语言模型基础研究 AI原创 OpenAI

2026-06-14

具身智能与机器人

具身智能技术取得重要突破，人形机器人与自动驾驶系统深度融合视觉-语言大模型，在复杂场景下的感知与决策能力显著增强。技术方案日趋成熟，产业化落地进程明显加速，成为AI应用新热点，受到资本市场与产业界高度关注。

具身智能机器人自动驾驶视觉语言模型

2026-05-17

AI for Science垂直应用

AI在科学研究垂直领域深入渗透，强调专业性与证据可靠性。阿里健康发布医学AI"氢离子"聚焦临床实用性，TCR抗原识别研究结合蛋白质语言模型推动免疫治疗，ChemMLLM构建化学多模态理解与生成的统一框架，体现AI赋能专业科学的严谨路径。

AI医疗蛋白质语言模型化学大模型科学计算垂直应用

2026-05-16

AI医疗健康与药物研发

涵盖医疗影像诊断透明化与药物研发智能化，CX-Mind实现胸片"可验证推理链"，突破黑箱局限；多模态药理学知识图谱与蛋白质语言模型可解释性研究并行发展。同时提出AI药物研发KPI框架，推动医疗AI从判别式向可解释、可验证方向演进，提升临床实用价值。

医疗AI 药物研发 CX-Mind 可解释AI 蛋白质语言模型

2026-04-12

AI生物与药物创新

DRUGONE序列展示技术一次性高通量生成蛋白序列–活性大数据集，结合蛋白语言模型加速定向进化；Nat.Biotechnol.探讨AI药物专利可专利性、发明人资格等法律挑战，预示AI生物创新进入实证与法规并重阶段。

序列展示蛋白语言模型 AI药物专利挑战 Nat.Biotechnol.

2026-04-12

AI同质化风险

南加大研究实锤大模型输出导致人类语言、代码、设计趋同，流行句式与风格被AI统一，认知多样性被侵蚀，警示集体智慧与适应能力退化风险。

认知多样性 AI同质化南加大大语言模型人类思维

2025-12-31

多模态大模型竞速

谷歌Gemini-3-Pro在SuperCLUE-VLM榜单断层领先，国产商汤、豆包、Qwen3-VL紧随其后；阿里开源Qwen-Image、腾讯开源HY-Motion1.0文生3D动作模型，显示中美在视觉-语言-动作一体化赛道进入密集迭代期，直接决定下一代交互与内容生成标准。

多模态 Gemini 国产大模型视觉语言模型 3D生成

2025-12-16

国产小模型与开源竞速

Nanbeige4-3B以小博大硬刚Qwen3，国产三强并列开源榜首；蚂蚁数科开源数据智能体，IBM CUGA开源助手任务完成率超60%，国内厂商通过开源小参数、高推理速度模型抢占边缘场景，推动AI民主化与信创替代。

小语言模型开源国产模型 IBM CUGA 蚂蚁数科

2025-10-17

多模态大模型突破

李飞飞团队RTFM实现单卡实时3D世界生成，谷歌Gemini 3.0 Pro、百度PaddleOCR-VL等刷新OCR与推理纪录，开源LLaVA-OneVision-1.5登顶多模态榜单，显示视觉-语言-动作统一模型正快速走向实用化，为下一代交互与内容生产奠定基础。

多模态实时3D OCR 开源视觉语言模型

2025-10-13

扩散语言模型推理突破

蚂蚁集团开源dInfer框架，首次将扩散语言模型推理速度提升10倍，超越自回归范式，为大模型高效落地奠定新基座，被视为后Transformer时代的重要里程碑。

dInfer 扩散语言模型推理加速蚂蚁开源自回归超越

2025-10-05

蛋白质语言模型可解释突破

InterPLM利用稀疏自编码器从ESM-2表示中提取数万个人类可读特征，首次揭示PLM以“叠加”方式编码结合位点、结构基序等概念，为药物设计提供可解释基石。

蛋白质语言模型稀疏自编码器可解释AI 叠加假说药物设计

2025-06-15

混合架构新范式崛起

康奈尔Eso-LM将扩散模型与自回归融合，速度提升65倍，英伟达下注；Transformer“混血”引发对自回归范式的再思考，或成通往AGI的又一技术路线，学术与资本同时加注。

扩散语言模型混合架构自回归英伟达 Transformer

2025-05-17

端侧轻量视觉语言模型

苹果开源FastVLM，在iPhone端实现85倍速视觉问答，证明高压缩视觉Token方案可行，为移动端AR/VR、实时翻译等场景打开落地窗口，或改变“云端大模型”垄断格局。

端侧AI FastVLM 视觉语言模型苹果移动推理

2025-03-24

多模态大模型技术突破

谷歌Gemini Live上线屏幕共享与实时视频交互，伯克利TULIP、腾讯混元-T1、阿里LHM等视觉-语言-动作模型集中发布，标志着多模态理解与生成交互进入可用阶段，为机器人、自动驾驶、3D内容创作打开新空间。

多模态实时交互视觉语言模型 3D重建

2025-02-20

多模态模型突破

视觉-语言模型密集升级：DeepSeek-R1推理框架首次迁移到视觉领域，谷歌推出PaliGemma 2 Mix与Gemini2.0虚拟科学家，VLM-R1、VideoRoPE、Muse等新品刷新长视频、游戏、科研等多模态任务SOTA，降低创作与研究门槛。

多模态视觉语言模型 VLM-R1 VideoRoPE Gemini2.0

2025-01-28

VideoWorld纯视觉学习突破

豆包联合高校提出VideoWorld，首次在无需语言标签的条件下让模型通过纯视觉信号完成折纸、打领结等复杂任务，验证“视觉本身即足够”的假设，为机器人与视频生成开辟新路径。

VideoWorld 纯视觉学习无语言模型视频生成机器人

2025-01-20

AI安全与幻觉治理

MIT等揭示视觉语言模型无法理解否定表达，淘天提出新对齐方法抑制视觉幻觉，ChatGPT API被曝DDoS漏洞，凸显大模型安全与可信研究紧迫性。

AI安全幻觉视觉语言模型漏洞

2024-12-14

AI 医疗与生物交叉突破

《自然医学》将三项 AI 临床试验列入 2025 年度关键名单，清华团队用 82 个“锚点”压缩 1048 倍基因序列空间，BiMediX2 阿拉伯语医疗多模态模型获联合国关注。医疗 AI 从论文走向临床与公共卫生，打开超过 4 亿非英语用户市场，吸引监管与资本双重加码。

AI医疗临床试验基因压缩多语言模型公共卫生

2024-11-16

大模型数学与推理能力瓶颈

FrontierMath新基准测试揭示主流大语言模型在复杂数学推理上正确率不足2%，凸显其逻辑推理短板；同时业界持续争论LLM是否具备真正“推理”能力，提示通往AGI仍有关键缺口，亟需新算法与评测体系突破。

数学推理 FrontierMath 大语言模型 AGI 评测基准

2024-10-27

AI+药物研发新范式

DEL+AI、化学语言模型、AlphaFold免代码使用等多篇顶刊成果集中出现，显示AI已贯穿靶点发现、分子设计到结构验证全链条，显著缩短研发周期，降低门槛，将重塑制药工业成本曲线。

AI制药 DEL 化学语言模型 AlphaFold 药物设计

AI快开门

发现AI的无限可能

# 语言模型