2020
09-23
09-23
python数据预处理 :样本分布不均的解决(过采样和欠采样)
何为样本分布不均:样本分布不均衡就是指样本差异非常大,例如共1000条数据样本的数据集中,其中占有10条样本分类,其特征无论如何你和也无法实现完整特征值的覆盖,此时属于严重的样本分布不均衡。为何要解决样本分布不均:样本分部不均衡的数据集也是很常见的:比如恶意刷单、黄牛订单、信用卡欺诈、电力窃电、设备故障、大企业客户流失等。样本不均衡将导致样本量少的分类所包含的特征过少,很难从中提取规律,即使得到分类模型...
继续阅读 >