因此,我需要为存储在s3上的一些数据创建一个外部表,并显式添加分区(不幸的是,由于名称不匹配,目录层次结构不适合动态分区功能),例如:
add partition for region:euwest1, year:2018, month:01, day:18, hour:18 at:s3://mybucket/mydata/euwest1/YYYY=2018/MM=01/dd=18/HH=18/
我在一个配置单元为2.3.2、示例类型为r4.2xarge的emr集群上运行了这个程序,它有8个vcore和61gbram。完成添加一个分区大约需要4秒钟,这并不太糟糕,但是如果我们需要处理多天的数据,那么添加分区将需要很长时间。
有没有办法加快这个过程?谢谢
暂无答案!
目前还没有任何答案,快来回答吧!