Nemotron-CC是英伟达重磅发布的大型英文AI训练数据库。强大的数据规

靖柔娱乐 2025-01-15 09:20:27

Nemotron - CC是英伟达重磅发布的大型英文AI训练数据库。

强大的数据规模与质量

Nemotron - CC总计包含6.3万亿个Token，其中1.9万亿为合成数据。这一庞大的规模中还内含大量经过验证的高质量数据，英伟达更是豪称它是“训练大型语言模型的理想素材” 。目前业界AI模型性能很大程度取决于训练数据，而现有公开数据库在规模和质量上有局限，Nemotron - CC的出现就是来打破这一瓶颈的！

数据来源与处理

它是基于Common Crawl网站数据构建的，经过严格的数据处理流程后，提取出高质量子集Nemotron - CC - HQ。在开发过程中，英伟达使用了模型分类器、合成数据重述（Rephrasing）等技术，保证了数据的高质量和多样性。同时针对特定高质量数据降低传统启发式过滤器处理权重，提高了数据库高质量Token的数量，还不会损害模型精确度。

出色的性能表现

与目前业界领先的公开英文训练数据库DCLM相比，使用Nemotron - CC - HQ训练的模型在MMLU基准测试中的分数提高了5.6分。进一步测试显示，使用Nemotron - CC训练的80亿参数模型在MMLU基准测试中分数提升5分，在ARC - Challenge基准测试中提升3.1分，在10项不同任务的平均表现中提高0.5分，成功超越了基于Llama 3训练数据集开发的Llama 3.1 8B模型。

英伟达已将Nemotron - CC训练数据库在Common Crawl网站上公开，相关文档文件也会在稍晚时候于英伟达的GitHub页中公布。这对于学术界和企业界的小伙伴们来说，无疑是个超级利好消息，又有强大的工具来推动大语言模型的训练进程啦！ ai创造营 [彩虹屁]

0 阅读：0

感谢大家的关注

作者最新文章

1

李宇春说好讨厌别人在吃饭的时候看手机，是谁又共鸣了！#声生不息#声生不息大湾区季容祖儿李宇春

2

我可太喜欢这个转场了， “一开始的一双人到现在只能顶峰相见啦”棣欣引力#狗仔曝棣欣引力中有一位曾追求另一位#

3

颜十六至少已骗4人赴泰。颜十六被扒，恐已被控制，估计回不来了。一个叫任逍遥的演员

4

在万米高空的飞机上，演员王星的一段自述，揭开了一段惊心动魄的剃头经历。王星回忆起

5

太好了，是新糖 “这是昀牵孟绕的时刻～”孟子义李昀锐宝格丽晚宴同框，好登对哦！孟姐今天端庄冷艳，小林好像有点i想笑不敢笑哈哈！俩人还同时升级了宝格丽品牌挚友，妥妥的升咖了！豹豹猫猫越来越好啊！#孟子义李昀锐活动同框#

6

泰国很“安全” Thailand is safe？“泰警方称将调查王星是否涉犯罪

7

泰警方证实失联演员星星已找到，演员王星弟弟称已与其视频通话。泰媒曝光了演员星星近

8

一个掉穿戴甲，一个掉扣子，你俩掉东西都能掉一起去，这不是正缘是什么！一世二世都不如这第三世让我磕的厉害啊！！孟子义李昀锐昀牵孟绕#李昀锐扣子掉在孟子义身上了#[送花花]#腾讯视频星光大赏#

9

1月7日迎来演员王星（星星）在泰缅边境失联事件的最新动态，中国演员星星在泰缅失联

10

李明德不会被雪藏起来吧？李明德爆料引热议，爆料剧组不公平对待，马天宇耍大牌，不参

热门分类

推荐热榜军事 NBA 体育社会明星八卦娱乐财经科技汽车历史国际游戏动漫公益搞笑商业互联网数码国际足球房产家居时尚科学探索职场育儿股票教育影视情感热点中国军情武器中国南海中国足球亚洲杯科比综合体育 CBA 投资楼市大咖秀外汇创业风口 SUV 豪车概念车优惠新能源美国欧洲朝日韩俄罗斯孕期街拍恋爱攻略婚姻正能量

娱乐TOP

1

关晓彤这件衣服穿的不尴尬吗，太透视了

2

冯绍峰的前女友倪妮，前妻赵丽颖

3

睡没睡着，一目了然[思考]

4

张天爱这个衣服其实挺危险的

5

李晨早些年这伙食不错

6

赵丽颖和张含韵，你会怎么选？

7

深圳商场偶遇洪金宝，75岁的他打扮很潮瘦了不少但依然精神抖擞！

8

钟嘉欣回加拿大✈️

9

杨颖大腿好粗啊

10

不对比不知道，同年龄段中秦岚还是牛啊

娱乐最新文章

1

44岁蔡依林泳衣内穿怼脸生图惊艳众人！

2

杨颖大腿好粗啊

3

刘亦菲：拍这么清楚，别人不要面子的吗[哭哭]

4

主打一个反差

5

angelababy跟朋友聚会烧烤，姐私底下也这么美

6

白鹿第一次演妈妈的角色，还挺像样

7

关晓彤这件衣服穿的不尴尬吗，太透视了

8

这应该是他最接近明星的一次。

9

《陷入我们的热恋》导演肠子都悔青了不是因为让王安宇来演男主角陈路周而是他

10

《歌手》这一期把范玮琪淘汰了看似赢麻了，实际上输麻了范玮琪参加歌手这个节目，