数据集
数据集:中、英文数据集各一份
中文数据集 THUCNews
THUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud
英文数据集 IMDB数据集
IMDB数据集 Sentiment Analysis
IMDB数据集下载和探索
参考TensorFlow官方教程:影评文本分类 | TensorFlow
THUCNews数据集下载和探索
参考博客中的数据集部分和预处理部分:CNN字符级中文文本分类-基于TensorFlow实现 - 一蓑烟雨 - CSDN博客
参考代码:text-classification-cnn-rnn/cnews_loader.py at mas…
学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念
- TP : 把正类预测为正类¶
- FP : 把负类预测为正类
- TN : 把正类预测为负类
- FN : 把负类预测为负类
- 准确率(accuracy) = (TP + TN) / (TP + FN + FP + TN)
- 精确率(precision) = TP / (TP + FP)
- 召回率(recall) = TP / (TP + FN)
- ROC曲线(受试者工作特征曲线):横轴为FPR,纵轴为TPR。
- FPR = FP / (FP + TN) TPR = TP / (TP + FN)
- AUC(Area under curve):ROC曲线下的面积
AUC的值一般在0.5-1之间,小于0.5表示分类器比随机分还要差。 - PR曲线展示的是准确率和召回率的曲线,PR曲线与ROC曲线的相同点是都采用了TPR (Recall),都可以用AUC来衡量分类器的效果。不同点是ROC曲线使用了FPR,而PR曲线使用了Precision,因此PR曲线的两个指标都聚焦于正例。类别不平衡问题中由于主要关心正例,所以在此情况下PR曲线被广泛认为优于ROC曲线