我在pyspark中有一个Dataframe(我在一个大约有160万行的分区中读取Dataframe,但是我经常在多个分区中读取Dataframe)。
对于每周的数据,有大约200000个不同的时间戳,对于每个时间戳,最多有8个不同的位置id(x,y坐标,而不是经纬度)。在大多数情况下,将有8个地点,但在罕见的情况下,可能有7或6个。这些列是week_num、ts、x_coord和y_coord(还有其他列,但这些是与此问题相关的列)。我想找出每个时间分组的位置ID(多边形的面积)所占用的总面积。我想我会使用一个pandas分组图和一个ts分组,然后我会有一个pandas udf,它会以某种方式计算每个分组中n行的多边形的面积,其中每行有一个x坐标和一个y坐标,但是我不确定这种方法是否合理,或者这个函数如何工作,它不影响三角形的面积。此外,我不确定这是否是一种有效的方法。
df.groupby('WEEK_NUM', 'TS').applyInPandas(some_function_that_calcs_area_polygon)
``` `some_function_that_calcs_area_polygon` 将接收最多8行的分组,然后使用numpy获取区域?
暂无答案!
目前还没有任何答案,快来回答吧!