众力资讯网

Hugging Face官方整理的语料库项目：一份3.65TB的pdf数据集。h

2025-09-08 08:44:06 蚁工厂科技

Hugging Face官方整理的语料库项目：一份3.65TB的pdf数据集。

huggingface.co/datasets/HuggingFaceFW/finepdfs

项目名为 FinePDFs ，是目前最大的、完全来自PDF的公开可用语料库，包含约3万亿个文本标记，来自1733种语言的4.75亿份文档。换算成token大概 3 万亿个

里面貌似中文语料不多。

阅读：3 点赞：0