metrics

分类指标

  • recall:召回率
  • precision:准确率
  • accuracy:正确率
  • F-Measure
  • sensitivity:灵敏度
  • specificity:特异度
  • TPR
  • FPR
  • ROC
  • AUC
  1. 混淆矩阵

    | | gt is p | gt is n |
    | :———-: | :————: | :—————: |
    | pred is p | tp | fp(假阳性) |
    | pred is n | fn(漏检) | tn |

    • 注意区分fp和fn
    • fp:被错误地划分为正例的个数,即实际为负例但被分类器划分为正例的实例数
    • fn:被错误地划分为负例的个数,即实际为正例但被分类器划分为负例的实例数
  2. recall

    • 衡量查全率
    • 对gt is p做统计
    • $recall = \frac{tp}{tp+fn}$
  3. precision

    • 衡量查准率
    • 对pred is p做统计
    • $precision = \frac{tp}{tp+fp}$
  4. accuracy

    • 对的除以所有
    • $accuracy = \frac{tp+tn}{p+n}$
  5. sensitivity

    • 衡量分类器对正例的识别能力
    • 对gt is p做统计
    • $sensitivity = \frac{tp}{p}=\frac{tp}{tp+fn}$
  6. specificity

    • 衡量分类器对负例的识别能力
    • 对gt is n做统计
    • $specificity =\frac{tn}{n}= \frac{tn}{fp+tn}$
  7. F-measure

    • 综合考虑P和R,是Precision和Recall加权调和平均
    • $F = \frac{(a^2+1)PR}{a^2*P+R}$
    • $F_1 = \frac{2PR}{P+R}$
  8. TPR

    • 将正例分对的概率
    • 对gt is t做统计
    • $TPR = \frac{tp}{tp+fn}$
  9. FPR

    • 将负例错分为正例的概率
    • 对gt is n做统计
    • $FPR = \frac{fp}{fp+tn}$
    • FPR = 1 - 特异度
  10. ROC

    • 每个点的横坐标是FPR,纵坐标是TPR
    • 描绘了分类器在TP(真正的正例)和FP(错误的正例)间的trade-off
    • 通过变化阈值,得到不同的分类统计结果,连接这些点就形成ROC curve
    • 曲线在对角线左上方,离得越远说明分类效果好
    • P/R和ROC是两个不同的评价指标和计算方式,一般情况下,检索用前者,分类、识别等用后者
  11. AUC

    • AUC的值就是处于ROC curve下方的那部分面积的大小
    • 通常,AUC的值介于0.5到1.0之间