如何在pysapark，pandas中从dataframe中提取所有重复的行并将其从dataframe中删除

gev0vcfq 于 2022-11-20 发布在其他

关注(0)|答案(1)|浏览(127)

根据列Articlenbr和数量，需要检查重复项并在另一个 Dataframe 中提取这些重复项。例如，在下面的示例中，我希望提取前两行，将其保存在另一个 Dataframe 中并从原始 Dataframe 中删除。如何在pyspark中完成？
重复的行（保存在另一个 Dataframe 中）：

原始 Dataframe ：

来源：https://stackoverflow.com/questions/74492629/how-to-extract-all-duplicated-rows-from-dataframe-and-delete-them-from-dataframe

1条答案

按热度按时间

试试看：

dups = df.groupby('Articlenbr').count()
dups = dups[dups['amount']>1].index.values
df[df['Articlenbr'].isin(dups)]

赞(0）回复(0）举报 2022-11-20

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前