- 中文自然标注微博预料
- 英文自然标注微博语料
- 中英文多个标准数据集(带标签)
- 机器学习工具包
- 可以用于构建情感词典
- 完成一般的情感分类问题,包含了预处理、模型构建、特征工程、交叉验证、性能分析等多个模块
- 可以进行bagging集成学习
- gen_universal_lexicon_mi.py
- gen_universal_lexicon_ig.py
- gen_universal_lexicon_wllr.py
- gen_universal_lexicon_chi.py
- 可以设置基础特征:词、词性的n-gram (n=1,2,3...)
- 进行N折交叉验证:参考cv_main.py
包含多种评估标准计算函数
其中的build_samps() 函数可以用来自定义添加额外的多种特征
投票、概率平均