AUC的公式理解

重新看西瓜书基础知识的时候,看到了AUC的公式,如下图:

看着这个图,再看看公式,我比较粗心地把(yi+y(i+1))看成(yi-y(i+1)),以为是按照矩形计算面积,所以这个1/2很不理解;实际上是按照梯形计算,因为ROC曲线非递减(下面会解释),而且离散点的原因,所以使用梯形比较方便计算。如下图:

那么又有一个问题,为什么说AUC是对样本排序质量的衡量?

这就需要我们来看一下ROC曲线;ROC和AUC之间的关系这边不再赘述,要注意的是ROC曲线上的点的来历:(西瓜书原话)根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要度(TPR,FPR)的值,分别以它们作为横、纵坐标作图,就得到了“ROC曲线”。

加粗字表明ROC曲线上的点是排序后的结果,书上也指出了把最可能是正例排在前面。对于“排序质量”的理解,其实书上没有给出直接的解释,我认为应该是判定正例真假的截断点的取值,因为这个截断点的取值直接影响了ROC的参数取值,而如何排序并不影响曲线的形状(可能是我才疏学浅会有这样的认识),所以我的理解是这样的。

发表评论

电子邮件地址不会被公开。 必填项已用*标注