分类失衡问题
分类不平衡是属于一个类别的观察数量显着低于属于其他类别的观测数量的场景。 例如,在我们需要识别罕见疾病,银行欺诈性交易等情况下,这个问题非常突出。
不平衡分类的例子让我们考虑一个欺诈检测数据集的例子来理解不平衡分类的概念 -
Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%
解决
平衡类的行为,解决不平衡的类问题。 平衡类的主要目标是增加少数类的频率或减少多数类的频率。 以下是解决失衡类问题的方法 -
重采样
重新采样是用于重建样本数据集的一系列方法 - 包括训练集和测试集。 重新抽样是为了提高模型的准确性。 以下是一些重新抽样技术 -
随机抽样 - 这项技术旨在通过随机排除大多数类别的例子来平衡课堂分布。 这样做直到大多数和少数群体的实例得到平衡。
Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%
在这种情况下,我们将10%的样本从非欺诈实例中取而代之,然后将它们与欺诈实例相结合 -
随机抽样后的非欺诈性观察:4950的10% = 495
将他们与欺诈观察结合后的总观测值: 50 + 495 = 545
因此,现在,低采样后新数据集的事件率为: 9%
这种技术的主要优点是可以减少运行时间并改善存储。 但另一方面,它可以丢弃有用的信息,同时减少训练数据样本的数量。
随机抽样 - 这种技术旨在通过复制少数类中的实例数量来平衡类分布。
Total observations = 5000
Fraudulent Observations = 50
Non-Fraudulent Observations = 4950
Event Rate = 1%
如果复制50次欺诈性观察30次,那么在复制少数类别观察值后欺诈观察值将为1500。然后,在过采样后新数据中的总观察值将为:4950 + 1500 = 6450。因此,新数据集的事件率是:1500/6450 = 23%。
这种方法的主要优点是不会丢失有用的信息。 但另一方面,由于它复制了少数族群的事件,因此它有更多的过度机会。
合奏技巧
这种方法基本上用于修改现有的分类算法,使其适用于不平衡的数据集。 在这种方法中,我们从原始数据中构建几个两阶段分类器,然后汇总它们的预测。 随机森林分类器是基于集合的分类器的一个例子。
//更多请阅读:https://www.yiibai.com/ai_with_python/ai_with_python_supervised_learning_classification.html
|