HuggingFace官方整理的语料库项目:一份3.65TB的pdf数据集。h

蚁工厂 2025-09-08 08:44:06

Hugging Face官方整理的语料库项目:一份3.65TB的pdf数据集。

huggingface.co/datasets/HuggingFaceFW/finepdfs

项目名为 FinePDFs ,是目前最大的、完全来自PDF的公开可用语料库,包含约3万亿个文本标记,来自1733种语言的4.75亿份文档。换算成token大概 3 万亿个

里面貌似中文语料不多。 ​​​

0 阅读:3
蚁工厂

蚁工厂

感谢大家的关注