开源数据 - AI话题

2026-01-27

具身智能感知突破

蚂蚁、斯坦福等发布开源视触觉与深度感知模型，补齐机器人“最后一厘米”短板；全球最大跨本体视触觉数据集同步放出，将加速抓取、装配等精细操作落地，推动具身智能从Demo走向工业与商用场景。

2025-08-18

AI安全与伦理治理

深度伪造、AI水印被秒破、假书泛滥、儿童聊天机器人涉“浪漫对话”等事件集中爆发，凸显生成式AI滥用风险。蚂蚁开源180万深度伪造定位数据集、Anthropic给Claude“自保”终止功能、我国首个法律垂直大模型“小包公”上线，标志行业从“先发展”转向“边治理”，技术与规则同步升级。

AI安全深度伪造伦理治理开源数据集法律大模型

2025-04-13

开源数学与中文推理新基座

MegaMath开源3710亿数学token，刷新最大高质量数学预训练数据集纪录；32B中文推理模型以1/20参数量击败DeepSeek-R1并免费商用，两大开源项目降低垂直领域门槛，有望催化教育、金融等行业的模型平民化。

MegaMath 中文推理开源数据集数学模型低成本SOTA

2024-10-13

开源数据集与工具生态

上交开源libcom图像合成工具箱下载破万，浙大发布GTSinger歌唱数据集，FineVideo提供43k视频-文本对，均填补开源社区空白；高质量数据与工具开放降低研发门槛，助推中小团队创新。

开源数据集 libcom GTSinger FineVideo 工具链

2024-08-29

AI for Science与数据开源

阿里云发布国际首个“月球科学多模态大模型”，华中科大推出14万张甲骨文数据集助ACL夺魁，NIS+框架量化因果涌现，AI驱动科学大奖启动，显示大模型正向基础科研渗透并反哺数据共享。

AI4Science 月球模型甲骨文数据集因果涌现开源数据

2024-06-30

多模态生成模型爆发

Figma AI一句话生成UI、Diffusion4D一句话生成4D视频、Luma Dream Machine关键帧视频、NUS实时DiT视频生成等密集发布，显示多模态生成正从“可用”走向“实时、可控、开源”，将重塑设计、影视、XR内容生产流程。

多模态生成视频模型实时推理开源数据集内容创作

2024-06-30

数据集与评测基础设施

MMDU多图多轮对话数据集、LLM自诊断缺陷框架、4D开源81K数据集等相继发布，表明高质量数据与自动化评测已成为模型迭代的新战场，决定下一代大模型性能上限与落地可靠性。

开源数据集多轮对话模型评测缺陷检测数据质量

2024-06-19

英伟达登顶与开源生态

英伟达市值超微软成全球第一，发布HelpSteer2与70B SteerLM奖励模型；同时SIGGRAPH、CVPR最佳论文频出，硬件+软件+数据三位一体巩固AI算力霸权，带动产业链估值再升级。

英伟达市值开源数据集算力 SIGGRAPH

2024-06-18

开源生态与数据基础设施

智源开源千万级InfinityInstruct、苹果一次性发布20个Core ML模型、DeepSeek-Coder-V2、Stable Diffusion 3入Diffusers，显示高质量数据集与开源模型正成为AI创新“水电煤”，降低创业门槛并加速应用落地。

开源数据集 Core ML InfinityInstruct Stable Diffusion DeepSeek

2024-06-09

视频与3D生成新框架扎堆

CVPR 2024 329篇论文聚焦图像/视频生成，华科UniAnimate实现一分钟高清跳舞视频合成，上交&港中文5秒级3D生成开源数据集，显示AIGC正快速向长时、高保真、可控方向演进。

视频生成 3D生成 CVPR AIGC 开源数据

2024-05-24

AI for Science 全面渗透

从西湖大学蛋白质突变预测SOTA、Nat. Commun. 深度交互组学药物设计，到awesome-ai4s开源资源库，AI正成为生物医学、材料、气象等科研基础设施，加速科学发现周期。

AI4S 蛋白质设计药物发现开源数据集

2024-05-10

AI for 生命科学新工具链

除 AlphaFold 3 外，ESM-Fold、ESM-2 等蛋白语言模型亦登 Science，利用多序列比对与语言模型实现原子级结构预测；同时谷歌与哈佛发布十年人脑 3D 图谱，结合 AI 与显微镜技术绘制史上最精细人脑图，为脑科学与疾病研究提供开源数据。

蛋白语言模型人脑地图 AI显微镜生命科学开源数据

2024-05-06

开源数据与模型工具链

HuggingFace发布15T tokens FineWeb数据集并配套部署、量化、微调教程，降低大模型训练与本地化门槛，推动社区创新。

开源数据集 FineWeb 模型微调 HuggingFace

AI快开门

发现AI的无限可能

# 开源数据