我有一个数据集,它需要省略几行,同时保持行的顺序。我的想法是使用一个掩码,其中包含一个介于0
和数据集长度之间的随机数,但我不确定如何设置掩码而不打乱行,即类似于对数据集进行采样的方法。
示例:数据集有5行和2列,我想随机删除一行。
Col1 Col2
A 1
B 2
C 5
D 4
E 0
转换为:
Col1 Col2
A 1
B 2
D 4
E 0
通过随机选择省略第三行(Col1='C'
)。
我该怎么做呢?
2条答案
按热度按时间jchrr9hc1#
下面的方法应该对你有用。这里我从
df
的索引中随机抽取remove_n
的row_ids。之后,df.drop
从 Dataframe 中删除这些行,并返回旧 Dataframe 的新子集。DataFrame
df
:DataFrame
df_subset
:hk8txs482#
我们可以
sample
帧,然后对索引进行排序。另一种方法是对随机选择的索引进行排序和过滤。