pandas python中的数据预处理

uelo1irk 于 2022-12-21 发布在 Python

关注(0)|答案(2)|浏览(119)

我有一个数据集，我正在探索数据，在我的数据的特定列中，我有11个不同的类别属于该特定列，但该列的数据分布如下：

Number of data points in class 1 : 87459 ( 60.074 %)
Number of data points in class 2 : 42278 ( 29.04 %)
Number of data points in class 3 : 14712 ( 10.105 %)
Number of data points in class 4 : 569 ( 0.391 %)
Number of data points in class 5 : 425 ( 0.292 %)
Number of data points in class 6 : 57 ( 0.039 %)
Number of data points in class 7 : 34 ( 0.023 %)
Number of data points in class 8 : 24 ( 0.016 %)
Number of data points in class 9 : 11 ( 0.008 %)
Number of data points in class 10 : 10 ( 0.007 %)
Number of data points in class 11 : 7 ( 0.005 %)

请注意，在类3之后到类11，该数据的百分比显著下降。
我的问题是我想对这些分类数据执行编码，我应该考虑该特定列中的所有类别而不管数据的表示有多低，还是仅仅考虑前3个类别并从该列中排除其余类别。