搜索

分享

QQ空间 QQ好友新浪微博微信

你了解如何评估模型吗？

汉无为 2020-06-21

展开全文

作者：晟沚

前言

在不同的任务进行评估时，都需要不同的指标进行评估，本文主要给大家简单介绍评估方法。

01

准确率

准确率是指分类正确的样本占总样本数的比例，即

准确率是分类问题中直观的评价指标。但是当负样本占比比较高时，这时候分类器要是把所有样本都预测为负样本，他就更容易获得更高的分数，这也说明了当样本占比不均匀时，此时准确率作为评估指标会对结果有影响。那么怎么解决呢，可以通过平均准确率，即计算每个类别下的样本的准确率的算术平均。

02

精确率和召回率的权衡

精确率是指分类正确的正样本个数占分类器判定为正样本的样本个数的比例。

排序问题中，通常采用TopN的结果作为模型预测的正样本，然后在计算其Precision和Recall。而Precision和Recall是矛盾又统一的指标，为了提高Precision，这时候，分类器要更有把握时才把样本预测为正样本，就会导致会过滤掉一些分数低一点的正样本，从而导致Recall值降低。

03

P-R曲线

所以为了更好的评估一个模型的好坏，可以通过P-R曲线。

P-R曲线横轴是召回率（Recall），纵轴是精确率（Precision），对一个排序模型来说，曲线上的一个点代表某阈值下将大于阈值的结果判定为正样本，小于阈值的判定为负样本，此时返回结果对应的召回率和精确率，整个曲线通过将阈值从高到低移动生成，如下图：

由图可见，随着召回率的升高，模型A精确率下降并没有B那么快，只用曲线某个点不能全面衡量模型的性能，需要通过曲线的整体表现。

04

ROC曲线

ROC曲线经常被用作为二值分类器最重要的指标之一。其横坐标为假阳性率（FPR），纵坐标为真阳性率（TPR），他们的计算公式如下

其中，P是真实的正样本的数量，N是真实的负样本的数量，TP是P个正样本中被分类器预测为正样本的个数，FP是N个负样本中被分类器预测为正样本的个数。

通过动态调整阈值（区分正负预测结果的阈值），每个阈值都对应一个FPR和TPR，在ROC曲线上对应一个点，连接所有点就得到ROC曲线，如下图：

05

ROC曲线与P-R曲线区别

那么ROC曲线和P-R曲线有什么区别呢？

当正负样本分布发生变化时，ROC曲线的形状基本保持不变，而P-R曲线的形状一般发生较剧烈的变化，如下图，c和d是将测试集中负样本数量增加10倍后的曲线图，可以看出ROC曲线形状基本不变，这让ROC曲线能够降低不同测试集带来的干扰，客观衡量模型本身性能，不受正负样本不均匀的影响。

END

机器学习算法工程师

一个用心的公众号

本站是提供个人知识管理的网络存储空间，所有内容均由用户发布，不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息，谨防诈骗。如发现有害或侵权内容，请点击一键举报。

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：汉无为 > 《机器学习基础》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

汉无为

关注对话

TA的最新馆藏

万万没想到！中医‘望闻问切’竟能让你秒懂体质！手把手教你自查，建议收藏！
频谱态势感知系统的演习测试与实战效能评估：理论、方法与实践-全文3.29万字绝对技术干货
刘兴策：对湖北省境内汉语方言分区的几点意见
煎鱼的第一步先倒油？那就错了！难怪做出来的鱼皮不完整还粘锅
电脑里谁在偷传数据？这个开源监控工具把泄密者抓现行
数风流人物，还看黄冈！——大黄冈100位名人完整名单

喜欢该文的人也喜欢更多

热门阅读换一换