如何在pysapark,pandas中从dataframe中提取所有重复的行并将其从dataframe中删除

gev0vcfq  于 2022-11-20  发布在  其他
关注(0)|答案(1)|浏览(128)

根据列Articlenbr和数量,需要检查重复项并在另一个 Dataframe 中提取这些重复项。例如,在下面的示例中,我希望提取前两行,将其保存在另一个 Dataframe 中并从原始 Dataframe 中删除。如何在pyspark中完成?
重复的行(保存在另一个 Dataframe 中):

原始 Dataframe :

bvhaajcl

bvhaajcl1#

试试看:

dups = df.groupby('Articlenbr').count()
dups = dups[dups['amount']>1].index.values
df[df['Articlenbr'].isin(dups)]

相关问题