Hugging Face官方整理的语料库项目:一份3.65TB的pdf数据集。
huggingface.co/datasets/HuggingFaceFW/finepdfs
项目名为 FinePDFs ,是目前最大的、完全来自PDF的公开可用语料库,包含约3万亿个文本标记,来自1733种语言的4.75亿份文档。换算成token大概 3 万亿个
里面貌似中文语料不多。
Hugging Face官方整理的语料库项目:一份3.65TB的pdf数据集。
huggingface.co/datasets/HuggingFaceFW/finepdfs
项目名为 FinePDFs ,是目前最大的、完全来自PDF的公开可用语料库,包含约3万亿个文本标记,来自1733种语言的4.75亿份文档。换算成token大概 3 万亿个
里面貌似中文语料不多。
作者最新文章
热门分类
科技TOP
科技最新文章