2025-08-18
AI安全与伦理治理
深度伪造、AI水印被秒破、假书泛滥、儿童聊天机器人涉“浪漫对话”等事件集中爆发,凸显生成式AI滥用风险。蚂蚁开源180万深度伪造定位数据集、Anthropic给Claude“自保”终止功能、我国首个法律垂直大模型“小包公”上线,标志行业从“先发展”转向“边治理”,技术与规则同步升级。
2025-04-13
开源数学与中文推理新基座
MegaMath开源3710亿数学token,刷新最大高质量数学预训练数据集纪录;32B中文推理模型以1/20参数量击败DeepSeek-R1并免费商用,两大开源项目降低垂直领域门槛,有望催化教育、金融等行业的模型平民化。
2024-10-13
开源数据集与工具生态
上交开源libcom图像合成工具箱下载破万,浙大发布GTSinger歌唱数据集,FineVideo提供43k视频-文本对,均填补开源社区空白;高质量数据与工具开放降低研发门槛,助推中小团队创新。
2024-08-29
AI for Science与数据开源
阿里云发布国际首个“月球科学多模态大模型”,华中科大推出14万张甲骨文数据集助ACL夺魁,NIS+框架量化因果涌现,AI驱动科学大奖启动,显示大模型正向基础科研渗透并反哺数据共享。
2024-06-30
多模态生成模型爆发
Figma AI一句话生成UI、Diffusion4D一句话生成4D视频、Luma Dream Machine关键帧视频、NUS实时DiT视频生成等密集发布,显示多模态生成正从“可用”走向“实时、可控、开源”,将重塑设计、影视、XR内容生产流程。
2024-06-30
数据集与评测基础设施
MMDU多图多轮对话数据集、LLM自诊断缺陷框架、4D开源81K数据集等相继发布,表明高质量数据与自动化评测已成为模型迭代的新战场,决定下一代大模型性能上限与落地可靠性。
2024-06-19
英伟达登顶与开源生态
英伟达市值超微软成全球第一,发布HelpSteer2与70B SteerLM奖励模型;同时SIGGRAPH、CVPR最佳论文频出,硬件+软件+数据三位一体巩固AI算力霸权,带动产业链估值再升级。
2024-06-18
开源生态与数据基础设施
智源开源千万级InfinityInstruct、苹果一次性发布20个Core ML模型、DeepSeek-Coder-V2、Stable Diffusion 3入Diffusers,显示高质量数据集与开源模型正成为AI创新“水电煤”,降低创业门槛并加速应用落地。
2024-06-09
视频与3D生成新框架扎堆
CVPR 2024 329篇论文聚焦图像/视频生成,华科UniAnimate实现一分钟高清跳舞视频合成,上交&港中文5秒级3D生成开源数据集,显示AIGC正快速向长时、高保真、可控方向演进。
2024-05-24
AI for Science 全面渗透
从西湖大学蛋白质突变预测SOTA、Nat. Commun. 深度交互组学药物设计,到awesome-ai4s开源资源库,AI正成为生物医学、材料、气象等科研基础设施,加速科学发现周期。
2024-05-10
AI for 生命科学新工具链
除 AlphaFold 3 外,ESM-Fold、ESM-2 等蛋白语言模型亦登 Science,利用多序列比对与语言模型实现原子级结构预测;同时谷歌与哈佛发布十年人脑 3D 图谱,结合 AI 与显微镜技术绘制史上最精细人脑图,为脑科学与疾病研究提供开源数据。
2024-05-06
开源数据与模型工具链
HuggingFace发布15T tokens FineWeb数据集并配套部署、量化、微调教程,降低大模型训练与本地化门槛,推动社区创新。