KS(Kolmogorov-Smirnov)
1、定义:KS是一种用于评估模型风险区分能力的指标,主要用于衡量好坏样本累计分布之间的差异,它通过计算正负样本累计分布之间的最大差值来衡量模型的区分能力,KS值越大,模型的风险区分能力越强。
2、计算公式:KS=max(Cumulative_negative_rate-Cumulative_positive_rate),Cumulative_negative_rate为累计负样本占比,即某一阈值T时label=0的样本占比;Cumulative_positive_rate为累计正样本占比,即某一阈值T时label=1的样本占比。
3、应用场景:广泛应用于信贷风控、欺诈检测等场景,帮助评估模型在区分高风险和低风险样本方面的能力。
KSP(Kappa/Kendall's Tau)
1、Kappa:
定义:Kappa是一个表示非随机混淆的指标,它衡量每个位点上发生非同义替换突变的速率,即由于突变而导致氨基酸编码改变的速率。
计算公式:Kappa=(实际相同且分类正确的样本数+实际不同且分类也不同的样本数)/总样本数。
应用场景:常用于生物信息学分析中,评估基因复制过程中的进化选择压力和中性选择。
2、Kendall's Tau:
定义:Kendall's Tau是一种用于衡量两个有序序列之间相关性的统计量。
计算公式:Tau=(Concordant Pairs - Discordant Pairs) / Total Pairs,Concordant Pairs表示两个序列中元素顺序一致的对数,Discordant Pairs表示两个序列中元素顺序不一致的对数,Total Pairs表示所有可能的对数。
应用场景:常用于评估两个变量之间的单调关系强度和方向,特别是在处理有序分类数据或等级数据时非常有用。
FAQs
1、KS和KSP的主要区别是什么?
- KS主要用于评估模型风险区分能力,衡量好坏样本累计分布之间的差异;而KSP中的Kappa和Kendall's Tau则分别用于衡量基因复制过程中的进化选择压力和两个有序序列之间的相关性。
2、KS值的大小对模型性能有什么影响?
- KS值越大,说明模型的风险区分能力越强,能够更好地将高风险和低风险样本区分开来,在实际应用中,通常希望模型的KS值越高越好。
3、Kendall's Tau的取值范围是多少?其绝对值大小代表了什么意义?
- Kendall's Tau的取值范围是[-1, 1],当Tau值为1时,表示两个序列完全正相关;当Tau值为-1时,表示两个序列完全负相关;当Tau值为0时,表示两个序列无相关性,其绝对值大小代表了两个序列之间相关性的强弱程度。