我有一张胶水table。该表是通过对包含Parquet文件的s3 bucket进行爬网而创建的。数据按年/月/日进行分区。
我首先获取特定分区的动态帧。那很简单。
datasource0 = glueContext.create_dynamic_frame.from_catalog(database = "testdata", table_name = "sampletable", transformation_ctx = "datasource0",push_down_predicate = "(year == '2019' and month == '08' and day == '02')")
我想找到一个特定列的最大值。这也很简单:
max = datasource0.toDF().agg({“my-col”:”max”}).first()[0]
启动此作业时,我选择了10个工人(默认值)。
是 create_dynamic_frame
正在处理10个工人?
是 agg
在10个工人身上处理的功能?
如果答案是肯定的,我怎样才能得到这种直觉?如果答案是否定的,那么,我怎样才能做到呢?
我的目标是加快上述代码的执行速度,它将在今天的5分钟内运行。
暂无答案!
目前还没有任何答案,快来回答吧!