-
Notifications
You must be signed in to change notification settings - Fork 27
Closed
Labels
Mirror RequestRequest for new mirrorRequest for new mirror
Description
项目名称与简介(Project Intro.)
C4是Google建立的一个来自Common Crawl的经过清理的多语言的语料库,用于T5等预训练模型的预训练过程中。分为en, en.noclean, realnewslike三个部分。
本数据集对促进预训练相关研究很有帮助,国内对其需求较大,且无镜像提供。
上游地址与镜像方法(How to Mirror)
huggingface对其有托管:https://huggingface.co/datasets/allenai/c4/tree/main,以git-lfs的形式。
其他信息(Other)
- 镜像大小(Mirror Size):约2.4TB,如果空间不足则可只同步en和realnewslike,共315GB
- 该镜像需求是否被之前的 issue 提出过:否
- 是否阅读了请求新镜像前必读(试行):已阅
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
Mirror RequestRequest for new mirrorRequest for new mirror