AI快开门

发现最好的AI工具

2025-11-30

多模态感知与文档智能升级

腾讯混元开源1B参数HunyuanOCR,统一检测+识别+理解端到端架构,ICDAR 2025夺冠;视觉CoT新范式让VLM具备人类-like思考链;Spatial-SSRL进一步提升大模型空间理解能力。多模态感知进入“轻量级+高精度+强语义”时代,文档、图像、3D场景一网打尽。
2025-07-02

视频生成技术突破

百度MuseSteamer、字节ATI、浙大UHD方案接连登场,实现一张图/一句提示生成1080P-4K超高清视频,支持音画同步与全身数字人驱动,刷新AI视频清晰度与可控性上限,为广告、影视、UGC平台带来颠覆式创作工具。
2025-06-12

国产多模态大模型与视频生成激战

字节Seedance 1.0 Pro自称超越Veo 3拿下视频生成SOTA,抖音开源8B视频模型ContentV,夸克、豆包、通义等先后发布高考志愿、搜索、科研等场景大模型,复旦&字节“甲方快乐模型”CreatiDesign实现多条件平面海报一键生成,国产模型在多模态、视频、设计等细分赛道进入密集迭代期。
2025-04-06

端侧与推荐模型新进展

中科大&华为发布生成式推荐大模型,可在昇腾NPU端侧高效部署,公开完整认知框架;英伟达开源双目深度估计大模型FoundationStereo获CVPR满分,推动机器人与AR/VR端侧感知能力升级。
2025-03-22

AI应用新场景

AR眼镜接入DeepSeek等大模型,实时翻译老黄演讲并划重点;西北大学MetaSpatial用50条数据解锁3D空间智能;烹饪大模型「食神」看脸生成养生食谱,AI正渗透翻译、空间认知、餐饮等细分场景,催生“模型即应用”新商业。
2025-03-21

开源生态与人才争夺:北京打造“开源之都”

北京宣布建设全球“开源之都”,杭州六小龙SpatialLM获谷歌致谢、Reka Flash 3开源性能超Gemma,阿里云联合亚洲十校培养AI人才,开源与人才成为城市与企业的第二战场。
2025-02-20

OpenAI核心出走创业

前CTO Mira Murati联手John Schulman、Lilian Weng等2/3 ChatGPT骨干成立Thinking Machines Lab,定位“开放版OpenAI”,承诺开源研究与可定制大模型;前联创Schulman更公开ChatGPT后训练PPT,搅动人才与生态格局。
2024-05-13

多模态生成与3D资产生态

从SIGGRAPH的ThemeStation到RPGGO.AI游戏平台,再到DiT统一图像-视频-音频-3D框架,学界与创业圈同步推进“单样本主题一致”3D生成、可交互多模态体验,降低游戏、元宇宙内容制作成本,预示AI原生娱乐时代加速到来。
2024-03-05

企业级大模型评测与工具落地

Hugging Face联合Patronus发布企业场景排行榜,覆盖金融、法律、客服等6类任务;百度Comate开放插件生态,商汤推“小浣熊”AI Native办公助手,显示大模型正从“炫技”转向“用得上”的B端工具。
2024-02-22

AI-Native产品范式

从AI PC、Ai Pin到GenAI信息商品,产业链正由“功能附加”转向“原生智能”;经济学视角下的高维数据与生成能力耦合,预示硬件、软件、服务一体化的新品类爆发。