CleanComedy

Humour generation is a challenging task in natural language processing due to limited resources and the quality of existing datasets. Available humour language resources often suffer from toxicity and duplication, limiting their effectiveness for training robust models. In this paper, we present CleanComedy, a specialised, partially annotated corpus, which includes jokes in English and Russian languages. The dataset is a filtered collection of existing sources, where toxic jokes and duplicates are removed with various algorithmic filters. The end quality of the dataset is validated with human assessment. We also present subjective human humour score annotation for 1,000 Russian and 1,000 English jokes providing detailed, ethical and comprehensive dataset for humour detection and generation tasks.

CleanComedy English

Ethical filtered jokes with 2-scale score 44,481 instances

CleanComedy English Gold

Ethical filtered jokes with human humour 5-scale score 1,000 instances

CleanComedy Russian

Ethical filtered jokes with 2-scale score 40,926 instances

CleanComedy Russian Gold

Ethical filtered jokes with human humour 5-scale score 1,000 instances

Source

We also provide filtering pipe-line in Jupyter notebooks in both English and Russian folders

Name		Name	Last commit message	Last commit date
Latest commit History 52 Commits
english		english
russian		russian
LICENSE		LICENSE
README.md		README.md
cc_data.zip		cc_data.zip
classifier_en.pkl		classifier_en.pkl
classifier_ru.pkl		classifier_ru.pkl
clean_comedy_humour_classifier_en.zip		clean_comedy_humour_classifier_en.zip
clean_comedy_humour_classifier_ru.zip		clean_comedy_humour_classifier_ru.zip
croissant-cleancomedy.json		croissant-cleancomedy.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

CleanComedy

CleanComedy English

CleanComedy English Gold

CleanComedy Russian

CleanComedy Russian Gold

Source

About

Uh oh!

Releases

Packages

Uh oh!

Languages

License

gorovuha/CleanComedy

Folders and files

Latest commit

History

Repository files navigation

CleanComedy

CleanComedy English

CleanComedy English Gold

CleanComedy Russian

CleanComedy Russian Gold

Source

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages