Skip to content

请求建立c4数据集镜像 #1208

@Yu-Shi

Description

@Yu-Shi

项目名称与简介(Project Intro.)

C4是Google建立的一个来自Common Crawl的经过清理的多语言的语料库,用于T5等预训练模型的预训练过程中。分为en, en.noclean, realnewslike三个部分。

本数据集对促进预训练相关研究很有帮助,国内对其需求较大,且无镜像提供。

上游地址与镜像方法(How to Mirror)

huggingface对其有托管:https://huggingface.co/datasets/allenai/c4/tree/main,以git-lfs的形式。

其他信息(Other)

  • 镜像大小(Mirror Size):约2.4TB,如果空间不足则可只同步en和realnewslike,共315GB
  • 该镜像需求是否被之前的 issue 提出过:否
  • 是否阅读了请求新镜像前必读(试行):已阅

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions