任务一-数据集探索

数据集

数据集:中、英文数据集各一份

中文数据集 THUCNews

THUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud

英文数据集 IMDB数据集

IMDB数据集 Sentiment Analysis

IMDB数据集下载和探索

参考TensorFlow官方教程:影评文本分类 | TensorFlow

科赛 - Kesci.com

THUCNews数据集下载和探索

参考博客中的数据集部分和预处理部分:CNN字符级中文文本分类-基于TensorFlow实现 - 一蓑烟雨 - CSDN博客

参考代码:text-classification-cnn-rnn/cnews_loader.py at mas…

学习召回率、准确率、ROC曲线、AUC、PR曲线这些基本概念

  • TP : 把正类预测为正类¶
  • FP : 把负类预测为正类
  • TN : 把正类预测为负类
  • FN : 把负类预测为负类
  • 准确率(accuracy) = (TP + TN) / (TP + FN + FP + TN)
  • 精确率(precision) = TP / (TP + FP)
  • 召回率(recall) = TP / (TP + FN)
  • ROC曲线(受试者工作特征曲线):横轴为FPR,纵轴为TPR。
  • FPR = FP / (FP + TN) TPR = TP / (TP + FN)
  • AUC(Area under curve):ROC曲线下的面积
    AUC的值一般在0.5-1之间,小于0.5表示分类器比随机分还要差。
  • PR曲线展示的是准确率和召回率的曲线,PR曲线与ROC曲线的相同点是都采用了TPR (Recall),都可以用AUC来衡量分类器的效果。不同点是ROC曲线使用了FPR,而PR曲线使用了Precision,因此PR曲线的两个指标都聚焦于正例。类别不平衡问题中由于主要关心正例,所以在此情况下PR曲线被广泛认为优于ROC曲线

参考

机器学习之类别不平衡问题 (2) —— ROC和PR曲线_慕课手记

iOSDevLog wechat
欢迎您扫一扫上面的微信公众号,订阅我的博客!