根据列Articlenbr和数量,需要检查重复项并在另一个 Dataframe 中提取这些重复项。例如,在下面的示例中,我希望提取前两行,将其保存在另一个 Dataframe 中并从原始 Dataframe 中删除。如何在pyspark中完成?重复的行(保存在另一个 Dataframe 中):
原始 Dataframe :
bvhaajcl1#
试试看:
dups = df.groupby('Articlenbr').count() dups = dups[dups['amount']>1].index.values df[df['Articlenbr'].isin(dups)]
1条答案
按热度按时间bvhaajcl1#
试试看: