我有一个csv文件的数据集,我转换成一个dataframe。这是一个两类数据集,0和1。数据集很不平衡,因为大多数示例都属于类1。我尝试随机地对大多数类进行欠采样或删除30-40%的示例。我不知道该怎么做。我已经寻找了在线资源,但他们都做采样不足或过采样50- 50%。任何帮助都将不胜感激!谢谢!
smdnsysy1#
1.尝试将df拆分为2,一个包含0(df0),一个包含1(df1)。1.使用df1=df1.sample(frac=0.6)对 Dataframe 进行下采样。1.然后重新连接2个 Dataframe ,如df = pd.concat([df0,df1])所示
1条答案
按热度按时间smdnsysy1#
1.尝试将df拆分为2,一个包含0(df0),一个包含1(df1)。
1.使用df1=df1.sample(frac=0.6)对 Dataframe 进行下采样。
1.然后重新连接2个 Dataframe ,如df = pd.concat([df0,df1])所示