csv 如何对 Dataframe 进行40%的欠采样?

xdyibdwo  于 2023-02-27  发布在  其他
关注(0)|答案(1)|浏览(140)

我有一个csv文件的数据集,我转换成一个dataframe。这是一个两类数据集,0和1。数据集很不平衡,因为大多数示例都属于类1。我尝试随机地对大多数类进行欠采样或删除30-40%的示例。我不知道该怎么做。我已经寻找了在线资源,但他们都做采样不足或过采样50- 50%。
任何帮助都将不胜感激!谢谢!

smdnsysy

smdnsysy1#

1.尝试将df拆分为2,一个包含0(df0),一个包含1(df1)。
1.使用df1=df1.sample(frac=0.6)对 Dataframe 进行下采样。
1.然后重新连接2个 Dataframe ,如df = pd.concat([df0,df1])所示

相关问题