第34步机器学习实战DLC：不平衡数据处理（上）

阿里云国内75折回扣微信号：monov8

阿里云国际，腾讯云国际，低至75折。AWS 93折免费开户实名账号代冲值优惠多多微信号：monov8 飞机：@monov6

失踪人口回归的第一期来说一说不平衡数据。

一、不平衡数据的概念

什么是不平衡数据我们先来看看小Chat怎么说的

顾名思义就是你的因变量1和0的样本数差距有点大大到影响了模型性能。举个栗子一个盒子里有100个红球10个黄球我们随机盲抽一个球然后猜颜色你会怎么猜是不是无脑猜红球就得了。这么训练的话模型永远达不到我们的要求。

二、不平衡数据的处理

处理的其实方法挺多的首先看看小Chat怎么说

再看看小Bing怎么说

总结一下

1把少数类的变多就是用各种算法生成新数据填充进去个人觉得有点失真我一般不用这种方法有兴趣的可以自己试试。

2把多数类的变少缺点很明显就是样本量少了。不过个人常用这个方法具体来说就是倾向性评分匹配俗称PSM法。

3用集成学习法也就是使用Xgboost、Catboost等boost字辈的模型其实他们是有参数来处理不平衡数据的后面细说。

所以我介绍的是第二第三种方法。

先从最简单的第三种方法开始吧

三、不平衡数据的处理实战

我就随便拿一个数据来演示了比如说这个数据类别0是1671例类别1是158例两者相差10倍多一丢丢。

1Xgboost调参法

a基础模型

首先用Xgboost的随便一个参数来跑一下

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.30, random_state = 6588)   

#模型构建

boost = xgb.XGBClassifier(

                          n_estimators=200,

                          max_depth=9,

                          min_child_weight=3,

                          subsample=0.9,

                          colsample_bytree=0.9,

                          gamma=0.1,

                          reg_alpha=7,

                          )

boost.fit(X_train, y_train)

看看结果

测试集和测试集的灵敏度和特异度

辣眼睛

此时ROC曲线和AUC值是很好看的

但是敢说这个模型很好么这个就是无脑猜红球的模型是没有什么使用价值的。所以要处理

bscale_pos_weight参数

之前我们在介绍Xgboost的时候传送门其实列出过这个参数

scale_pos_weight在样本十分不平衡时把这个参数设定为一个正值可以使算法更快收敛。通常可以将其设置为负样本的数目与正样本数目的比值。

我们可以试试调整它那么设置为多少合适呢遇事不决就问小Chat

如TA所说“例如如果负样本数目为1000正样本数目为100那么可以将scale_pos_weight设置为10。”那么我们的负样本0数目是正样本1数目的10倍所以设置为10好像有点猛保守点先用6试一试

#模型构建

boost = xgb.XGBClassifier(

                          n_estimators=200,

                          max_depth=9,

                          min_child_weight=3,

                          subsample=0.9,

                          colsample_bytree=0.9,

                          scale_pos_weight=6,

                          gamma=0.1,

                          reg_alpha=7,

                          )

boost.fit(X_train, y_train)

看看结果

测试集和测试集的灵敏度和特异度

似乎比基础模型好些了吧就是看起来过拟合了。

要不就大胆点试一试scale_pos_weight=10

看起来测试集的灵敏度52%可能到极限了但是存在过拟合而且特异度还是很高的似乎有在操作的空间。

一顿操作主要调整过拟合的参数min_child_weight=2、subsample=0.1和reg_alpha=8

#模型构建

boost = xgb.XGBClassifier(

                          n_estimators=800,

                          max_depth=6,

                          min_child_weight=2,

                          subsample=0.1,

                          colsample_bytree=0.5,

                          scale_pos_weight=10,

                          gamma=0.1,

                          reg_alpha=8,



                          )

boost.fit(X_train, y_train)

提升不多

测试集灵敏度涨了大概0.2左右估计在调调能到56%不过应该不会超过60%了可能数据就这样了吧。不过相较于最初的37%提升了不少了足以说明这个数据不平衡对性能的影响有多大哦。