Skip to content

Seikaijyu/Sex-novel-filtered

General NLPZH

Seikaijyu/Sex-novel-filtered is a General NLP-focused dataset in ZH distributed in Parquet format.

About Seikaijyu/Sex-novel-filtered

色情小说数据集 本数据集包含了3392条单条数据最大长度2500token的数据集 这是一个被人工精细化清洗过的色情小说数据集,此数据来源于Pixiv小说板块 原数据集有3w条,我花了一个通宵的时间配合正则人工清洗了它,最终得到了3000条语料 虽然精细处理过,但不能保证百分百干净 虽然这么说.....但此数据已经可以直接训练了,至少不会有什么大问题 另外提一嘴,现代网络小说真难练啊,ctx特长,质量特低,风格逻辑混乱,收敛特慢,感觉根本就是一无是处嘛

Details

Task
General NLP
Language
ZH
Format
Parquet
Rows / instances
N/A
Creator
Seikaijyu
Year
2024
Download

Related General NLP datasets

FAQ