英伟达发布 6.3 万亿 Token 大型 AI 训练数据库 Nemotron-CC
作者:暴走手游网时间:2025-01-14 10:20:34
本站 1 月 13 日消息,据英伟达官方博客,英伟达宣布推出一款名为 Nemotron-CC 的大型英文AI训练数据库,总计包含 6.3 万亿个 Token,其中 1.9 万亿为合成数据。英伟达声称该训练数据库可以帮助为学术界和企业界进一步推动大语言模型的训练过程。
目前,业界各类AI模型的具体性能主要取决于相应模型的训练数据。然而现有公开数据库在规模和质量上往往存在局限性,英伟达称Nemotron-CC 的出现正是为了解决这一瓶颈,该训练数据库 6.3 万亿 Token 的规模内含大量经过验证的高质量数据,号称是“训练大型语言模型的理想素材”。
数据来源方面,Nemotron-CC 基于 Common Crawl 网站数据构建,并在经过严格的数据处理流程后,提取而成高质量子集 Nemotron-CC-HQ。
在性能方面,英伟达称与目前业界领先的公开英文训练数据库 DCLM(Deep Common Crawl Language Model)相比,使用 Nemotron-CC-HQ 训练的模型在 MMLU(Massive Multitask Language Understanding)基准测试中的分数提高了 5.6 分。
进一步测试显示,使用 Nemotron-CC 训练的 80 亿参数模型在 MMLU 基准测试中分数提升 5 分,在 ARC-Challenge 基准测试中提升 3.1 分,并在10项不同任务的平均表现中提高 0.5 分,超越了基于 Llama 3 训练数据集开发的 Llama 3.1 8B 模型。
英伟达官方表示,Nemotron-CC 的开发过程中使用了模型分类器、合成数据重述(Rephrasing)等技术,最大限度地保证了数据的高质量和多样性。同时他们还针对特定高质量数据降低了传统的启发式过滤器处理权重,从而进一步提高了数据库高质量 Token 的数量,并避免对模型精确度造成损害。
本站注意到,英伟达已将 Nemotron-CC 训练数据库已在 Common Crawl 网站上公开(点此访问),英伟达称相关文档文件将在稍晚时候于该公司的 GitHub 页中公布。
相关文章
-
挑战极限:开发者将经典游戏《贪吃蛇》压缩至 56 字节大小
本站 1 月 15 日消息,最初于 1997 年登陆诺基亚 6110 的《贪吃蛇》游戏已成为一代经典,而在过去一年中,开发者们一直在努力将《贪吃蛇》移植到 DOS 系统,并不断压缩文件大小。据外媒 T
-
任天堂 Switch 游戏《咚奇刚归来 HD》署名引争议:原版游戏开发者被“一句话”带过
本站 1 月 15 日消息,任天堂的 Switch 重制版游戏《咚奇刚归来 HD(Donkey Kong Country Returns HD)》即将于 1 月 16 日发售,该游戏是 2010 年
-
酷态科 CP13 三合一电能块 33W 自带线充电器 / 充电宝开售:5000mAh,129 元
感谢本站网友 風見暉一、新心思、艺术家林北 的线索投递! 本站 1 月 15 日消息,酷态科 CP13三合一电能块(自带线 充电器 充电宝)今日在
-
英特尔宣布将逐渐停产第 12 代 Alder Lake 移动处理器,覆盖酷睿、奔腾及赛扬
本站 1 月 15 日消息,英特尔正逐步淘汰其第 12 代 Alder Lake 系列移动 CPU,涵盖了标准酷睿 i3、i5、i7、i9系列,以及部分采用相同架构的奔腾和赛扬型号,但不包括 HX 系
-
余承东回应智界系列方向盘轻:R7 汽车支持随速助力转向,速度越快方向盘越重
感谢本站网友 Autumn_Dream 的线索投递! 本站 1 月 15 日消息,华为常务董事、终端 BG 董事长、智能汽车解决方案 BU 董事长余承东昨
-
迄今最精细:我国发布黑猩猩脑图谱,助力人脑演化研究
本站 1 月 15 日消息,中国科学院自动化研究所脑网络组研究团队昨日(1 月 14 日)发布博文,宣布联合国内外多个科研机构,发布了迄今为止最精细的黑猩猩脑图谱--黑猩猩脑网络组图谱(Chimpan