在dynamicframe中按多列分组

svgewumm  于 2021-05-24  发布在  Spark
关注(0)|答案(0)|浏览(214)

我有一个这样的动态框架-

my_claim: com.amazonaws.services.glue.DynamicFrame
​

这是其中的数据示例-

{"dsy": 1000000, "org": 1023049, "provider": 2271, "claim": 1, "dt": 20190128, "pmt": 12.1}

{"dsy": 1000000, "org": 1023049, "provider": 2271, "claim": 2, "dt": 20190111, "pmt": 8.1}

按每行的前三个元素分组的最佳/最快方式是什么。例如,这是我期望的上面两行的输出-

{"dsy": 1000000, "org": 1023049, "provider": 2271, "claim": 2, "dt": 20190128, "pmt": 20.2}

我期待这个输出,因为我想groupby(或者reducebykey,如果那样更快的话) dsy , org 以及 provider . 然后获得 MAX(claimno) , MAX(dt) 以及 SUM(pmt) .

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题