分类模型的常见度量指标(模型评估指标之间的一些联系)
分类模型的常见度量指标(模型评估指标之间的一些联系)
2024-11-21 11:21:27  作者:你眼瘸呀  网址:https://m.xinb2b.cn/sport/zjg244770.html

信贷评分模型的评估指标常见的有P-R曲线、AUC、KS、混淆矩阵、AR、洛伦茨曲线等,各个评估指标之间都有或多或少的联系和区别,从而从不同角度对模型进行评估。本文尝试写一些各个评估指标间的联系,从而对模型评估指标有更加深入的理解。

目录

正负样本的选择混淆矩阵与概率密度分布提升图与洛伦茨曲线洛伦茨曲线与KSKS与AUC值参考资料

一、正负样本的选择

直观上,在信贷风控建模中都以好样本为正样本,以坏样本为负样本。其实正负样本的选择不同直接影响的就是混淆矩阵,在以好样本为正样本的情况下,信贷业务的一些指标如通过率与坏账率如下:

通过率,即模型判断为好样本的数量占总样本的数量。


坏账率为模型判断为好样本(P)中真正的坏样本(FP)所占的比例。


而模型的准确率Precison定义为模型判断为好样本中真正的好样本所占比例,即:


由此可见,坏账率就是1-Precison,在模型优化时设法让Precison值更高,即通过样本中的好样本占比尽可能高,这是一个很好的性质,也是将好样本作为正样本的优点。但同时其他的一些指标比如F1指标,这个时候就是无效的。

在机器学习中,往往是将少数样本定义为正样本,在信贷模型也就是将坏样本定义为正样本,表示希望模型在训练时更加关注坏样本,控制模型对坏样本的预测能力,这也更符合业务场景。

总结一下,正负样本的选择没有强制要求,根据自身需求而定,不同正负样本的选择会对指标的表现方式产生影响。

二、混淆矩阵与概率密度分布

为了便于理解,以好样本为正样本,将混淆矩阵与正负样本的概率密度函数对应到一张图上:


虚线左边为拒绝的样本,即经模型预测低于cutoff值的坏样本;右边为通过的样本,即经模型预测高于cutoff的好样本。FN为模型预测为坏样本但实际为正样本,即被误拒的好人;FP为模型预测为好样本但实际为坏样本,即误准入的坏人。

TPR为预测为正例且实际为正例的样本占所有正例样本的比例,即所有好样本中通过样本的占比。


FPR为预测为正例但实际为负例(误准入)的样本占所有负例样本的比例,即所有坏样本中被误准入的样本占比。


由于KS值是取TPR和FPR之差的最大值,可以理解为两个累计分布之差。以上图中的cutoff值为例,虚线往左移则TP增加的比例要小于FP增加的比例,虚线往右移则TP减少的比例大于FP减少的比例,因此只有在虚线处TP的占比与FP的占比差值最大,也就是KS的取值。所以上图中三条线交叉的地方取到的cutoff值,正好为KS值对应的cutoff值。

三、提升图与洛伦茨曲线

提升图比较的是采用模型与不采用模型带来的改善,即采用模型后对坏样本识别能力的提升程度。计算过程如下图:


上图中的右侧有两条曲线,绿色的这根是Lift曲线,它是将每一组的坏样本占比除以整体的坏样本占比得到。这条曲线是趋于0的,且越陡说明模型的区分度越高。还有一根蓝色的曲线是累计的Lift曲线,是将累计的坏样本比例除以整体的坏样本占比所得,这条线是的临界点是1。

如果将用模型判断得到的每组累计坏样本占比与随机判断每组的累计坏样本占比进行绘图,就得到洛伦茨曲线,计算方式如下图:


洛伦茨曲线如下:


用洛伦茨曲线比较模型性能时,较好的模型的洛伦茨图应该更偏向于左上方坐标轴,这种比较模型性能的方式与ROC曲线相同。上图中洛伦茨曲线上一点的含义是:在通过率为50%的情况下,模型可以识别出80%的坏样本。


现在知道洛伦茨曲线越往左上方说明模型的性能越好,因此可以用一个指标来量化这种性质,如上图将图形分为A、B、C三块区域,理想状态下A的面积等于A B的和,此时可以完美地识别所有坏样本。因此,将A和A B的比值定义为基尼系数,也叫作AR值。

四、洛伦茨曲线与KS

洛伦茨曲线中在给定通过率后,只能得到对坏样本的识别能力,并没有反应对好样本的识别能力。而K-S曲线的本质是对坏样本的洛伦茨曲线和好样本的洛伦兹曲线构成的。


所以,上图中坏样本的累计占比曲线就是FPR,好样本的累计占比曲线就是TPR。上图中KS值为0.36,其含义是在通过率为62%时,模型能识别70%的逾期用户,但有34%的好样本被误判为坏样本拒绝。

KS值的高低与建模样本中的坏样本浓占比相关,并不是KS值越高风控就越好。下面是知乎"独孤qiu败"文章中的一个例子:

(1)如果建模样本中好坏样本比例good/bad=50/50,坏账率为50%;k-s值0.6指的是如果在误杀20%好用户的情况下可以识别80%的坏样本;那么使用模型之后的结果为good/bad=40/10,坏账率变为20%;这个我们做风控策略的人都知道在使用一些较好的变量的情况下是有可能的,因为毕竟做到50%的坏账已经是够烂的了。(2)如果建模样本中好坏样本比例good/bad=80/20,坏账率为20%;k-s值0.6指的是如果在误杀20%好用户的情况下可以识别80%的坏样本;那么使用模型之后的结果为good/bad=64/4,坏账率变为5.88%,其实我们知道这个一个模型是很难做到。

五、KS与AUC值

这一部分直接搬运求是汪的文章了,风控模型—区分度评估指标(KS)深入理解应用。


因为KS = |TPR - FPR|,如果添加辅助线TPR = FPR KS,那么这条直线的截距就是KS值。当与ROC曲线相切时,截距最大,也就对应max_ks。

在理解KS和ROC曲线的关系后,我们也就更容易理解——为什么通常认为KS在高于75%时就不可靠?我们可以想象,如果KS达到80%以上,此时ROC曲线就会变得很畸形,如下图:


六、参考资料

1.《Python金融大数据风控建模实战》

>【作者】:Labryant

>【原创公众号】:风控猎人

>【简介】:某创业公司策略分析师,积极上进,努力提升。乾坤未定,你我都是黑马。

>【转载说明】:转载请说明出处,谢谢合作!~

  • 排骨焯水最正确的方法 排骨焯水后为什么又腥又柴
  • 2024-11-22排骨焯水最正确的方法 排骨焯水后为什么又腥又柴我特别喜欢吃排骨,和其他部位的肉相比,排骨都口感要更加好,肥瘦相间,无论是炖汤还是红烧,都非常美味,今天趁着早上比较凉快,去菜市场买了两大根排骨回来,正好去用一下老爸教我的方法排骨焯水后为什么又腥又柴。
  • 一看会笑很多遍的笑话(可以笑上一年的笑话)
  • 2024-11-22可以笑上一年的笑话1.我去小姨子房间拿东西,刚开门,就看到小姨子在里面换衣服我挺不好意思的,说了声对不起就准备出去,但是小姨子叫住了我,还叫我回答两个问题,答对任意一个就不怪我我说你问吧,她说:你要选3-1还是1-3?。
  • 小黄鸭儿童保温杯测评(儿童宝宝必备单品神奇之熊本士保温杯)
  • 2024-11-22儿童宝宝必备单品神奇之熊本士保温杯杯子是一杯两用的,一个吸管夏天喝,一个保温盖冬天用因为我有一个四岁半的小妹妹,所以对儿童健康用品这块比较看重,这个保温杯有五种颜色图案,我最喜欢小绵羊的了,比较适合女孩子,同类的虎牌要四五百,杯具熊也。
  • 双子座是5月21号还是5月22号(聊聊双子座5.27-5.29)
  • 2024-11-22聊聊双子座5.27-5.29#头条创作挑战赛#5月27日出生的双子,会有一往无前、刚毅的性格,对自己的事业开展起到了非常大的作用他们是不怕失利的,就算跌倒,也会重新站起来,不会轻易说放弃,也不会轻易说困难他们大胆、有魄力,事业上。
  • nike鞋都有哪些系列(这是最有江湖地位)
  • 2024-11-22这是最有江湖地位诞生37年,「飞马」Pegasus是Nike最具江湖地位的鞋款系列之一每年夏季都有新品升级登场,一直是不少跑者的训练首选最新一代NikePegasus37刚刚发售,定价未变,搭载全新科技配置,性能大幅。
  • tgp是什么(tgp是什么意思)
  • 2024-11-22tgp是什么意思TGP是腾讯游戏平台的缩写,全称是TencentGamePlatform,是腾讯发布的一个整合游戏下载管理平台,用户可以通过它快速的查找并下载腾讯游戏TGP是最快速的腾讯游戏下载工具,同时还支持游戏管。
  • 一封家书范文给家人(一封家书郭天栋致父母亲)
  • 2024-11-22一封家书郭天栋致父母亲父母亲二位老大人堂前叩禀:敬启者,想二大人身体健康、饮食增加,是儿福也大人来信,想念孩儿回家看望大人一面以儿想来,大人和伯父、叔父你们弟兄四人只生下儿孤子一人,儿应该过节上坟祭祖,对二大人应常在家敬〔。
  • 五号特工组大结局(马云飞击毙了垂死挣扎的酒井美惠子)
  • 2024-11-22马云飞击毙了垂死挣扎的酒井美惠子大结局:马云飞击毙了垂死挣扎的酒井美惠子,黎明前,完成轰炸东京任务的第一架美军飞机,安全降落在衢州机场酒井的安排没得逞,她化装成孕妇随吴子玉已经潜入到机场内部,又让吴子玉作为诱饵去吸引5号特工组,吴子。
  • excel自建公式(建立自己的公式模板)
  • 2024-11-22建立自己的公式模板大家好,我是(财新发现),这期出的是一篇关于怎样导入指标的教程首先你要先下载一个通信达的软件,软件在官网下载然后打开通达信金融终端这个软件,第一步点击功能,第二步选择公式系统,第三步公式管理器点击其他。
  • 科二s弯怎么打方向盘(一把过的技巧)
  • 2024-11-22一把过的技巧车向右进入时,当看到右车头离开线的15-20公分左右,回正两把方向等左挡风玻璃角在S路路宽的两侧路基线的中间时(也就是把挡风玻璃边的大梁作为一把菜刀切开路折中的方法),稍微提前打方向,此时的方向,实际。
  • 网购的火车票还能取出来吗(网购火车票在机器上取不出来怎么办)
  • 2024-11-22网购火车票在机器上取不出来怎么办不用东奔西走,动动手就能买到火车票,如今大家越来越习惯在网上购买火车票不过有时消费者会遇到这种问题:手机或网上订好了车票,自动取票机上却取不出来这到底是怎么回事呢?今日,中国铁路官方微信公众号就进行了。
  • 火箭升空利用的是什么反冲原理(火箭升空利用的原理解析)
  • 2024-11-22火箭升空利用的原理解析火箭升空利用的是反冲原理要使一个物体从静止开始运动,必须有力作用在物体上,并且作用一定时间T.在物理学上,力F和时间T的乘积FT叫做力的冲量要使火箭发射,就必需有冲量作用在火箭上.这种冲量是通过燃气的。