2025-11-30
多模态感知与文档智能升级
腾讯混元开源1B参数HunyuanOCR,统一检测+识别+理解端到端架构,ICDAR 2025夺冠;视觉CoT新范式让VLM具备人类-like思考链;Spatial-SSRL进一步提升大模型空间理解能力。多模态感知进入“轻量级+高精度+强语义”时代,文档、图像、3D场景一网打尽。
2025-07-02
视频生成技术突破
百度MuseSteamer、字节ATI、浙大UHD方案接连登场,实现一张图/一句提示生成1080P-4K超高清视频,支持音画同步与全身数字人驱动,刷新AI视频清晰度与可控性上限,为广告、影视、UGC平台带来颠覆式创作工具。
2025-06-12
国产多模态大模型与视频生成激战
字节Seedance 1.0 Pro自称超越Veo 3拿下视频生成SOTA,抖音开源8B视频模型ContentV,夸克、豆包、通义等先后发布高考志愿、搜索、科研等场景大模型,复旦&字节“甲方快乐模型”CreatiDesign实现多条件平面海报一键生成,国产模型在多模态、视频、设计等细分赛道进入密集迭代期。
2025-04-06
端侧与推荐模型新进展
中科大&华为发布生成式推荐大模型,可在昇腾NPU端侧高效部署,公开完整认知框架;英伟达开源双目深度估计大模型FoundationStereo获CVPR满分,推动机器人与AR/VR端侧感知能力升级。
2025-03-22
AI应用新场景
AR眼镜接入DeepSeek等大模型,实时翻译老黄演讲并划重点;西北大学MetaSpatial用50条数据解锁3D空间智能;烹饪大模型「食神」看脸生成养生食谱,AI正渗透翻译、空间认知、餐饮等细分场景,催生“模型即应用”新商业。
2025-03-21
开源生态与人才争夺:北京打造“开源之都”
北京宣布建设全球“开源之都”,杭州六小龙SpatialLM获谷歌致谢、Reka Flash 3开源性能超Gemma,阿里云联合亚洲十校培养AI人才,开源与人才成为城市与企业的第二战场。
2025-02-20
OpenAI核心出走创业
前CTO Mira Murati联手John Schulman、Lilian Weng等2/3 ChatGPT骨干成立Thinking Machines Lab,定位“开放版OpenAI”,承诺开源研究与可定制大模型;前联创Schulman更公开ChatGPT后训练PPT,搅动人才与生态格局。
2024-05-13
多模态生成与3D资产生态
从SIGGRAPH的ThemeStation到RPGGO.AI游戏平台,再到DiT统一图像-视频-音频-3D框架,学界与创业圈同步推进“单样本主题一致”3D生成、可交互多模态体验,降低游戏、元宇宙内容制作成本,预示AI原生娱乐时代加速到来。
2024-03-05
企业级大模型评测与工具落地
Hugging Face联合Patronus发布企业场景排行榜,覆盖金融、法律、客服等6类任务;百度Comate开放插件生态,商汤推“小浣熊”AI Native办公助手,显示大模型正从“炫技”转向“用得上”的B端工具。