Question 1

What is the IDEA-CCNL/laion2B-multi-chinese-subset dataset?

Accepted Answer

laion2B-multi-chinese-subset

Github: Fengshenbang-LM
Docs: Fengshenbang-Docs

简介 Brief Introduction

取自Laion2B多语言多模态数据集中的中文部分，一共143M个图文对。
A subset from Laion2B (a multimodal dataset), around 143M image-text pairs (only Chinese).

...

Question 2

Is IDEA-CCNL/laion2B-multi-chinese-subset a benchmark?

Accepted Answer

IDEA-CCNL/laion2B-multi-chinese-subset is a dataset for training or evaluation; it isn't tracked as a standard LLM benchmark in our catalog.

Question 3

Where can I download IDEA-CCNL/laion2B-multi-chinese-subset?

Accepted Answer

IDEA-CCNL/laion2B-multi-chinese-subset is available at its source: https://huggingface.co/datasets/IDEA-CCNL/laion2B-multi-chinese-subset.

Question 4

What license is IDEA-CCNL/laion2B-multi-chinese-subset released under?

Accepted Answer

IDEA-CCNL/laion2B-multi-chinese-subset is distributed under the cc-by-4.0 license.

IDEA-CCNL/laion2B-multi-chinese-subset

About IDEA-CCNL/laion2B-multi-chinese-subset