目前,我正在对一个大型数据库进行一些计算,该数据库包含各种借款人如何支付贷款的各种信息。从技术Angular 来看,我使用PySpark,并且刚刚面临如何使用高级过滤操作的问题。
例如,我的dataframe看起来像这样:
Name ID ContractDate LoanSum Status
Boris ID3 2022-10-10 10 Closed
Boris ID3 2022-10-15 10 Active
Boris ID3 2022-11-22 15 Active
John ID1 2022-11-05 30 Active
Martin ID6 2022-12-10 40 Closed
Martin ID6 2022-12-12 40 Active
Martin ID6 2022-07-11 40 Active
我必须创建一个数据框架,其中包含组织向特定借款人(按ID分组)发放的所有贷款,其中两笔贷款(分配给一个唯一ID)之间的天数小于5,并且贷款金额相同。
换句话说,我必须获得下表:
Name ID ContractDate LoanSum Status
Boris ID3 2022-10-10 10 Closed
Boris ID3 2022-10-15 10 Active
Martin ID6 2022-12-10 40 Closed
Martin ID6 2022-12-12 40 Active
要运行此筛选,我应该做些什么?
先谢谢你了
2条答案
按热度按时间5n0oy7gb1#
您的DataFrame(df):
导入必要的包:
试试这个
输出
q3aa05252#
代码
结果