多边形中的几何点hadoop实现

zpqajqem  于 2021-06-24  发布在  Pig
关注(0)|答案(2)|浏览(319)

我有一个大的日志文件和一些坐标(lat,long),还有一个包含多边形集合的数据库。多边形数据集现在适合内存,但将来可能不适合。
我想连接这两个数据集,以便知道,对于每个对数坐标,它包含在哪个多边形中。
你知道用hadoop解决这个问题的好方法是什么吗?

tktrz96b

tktrz96b1#

乍一看,我建议这样做:
有一个使用多个输入的Map(数据库多边形和日志文件的分割)。对于日志文件分割中的每个点,它检查该点是否属于多边形,如果属于多边形,则输出该对(点、多边形)。
缩减器聚合此信息并输出:(点,它所属的多边形集)。
此解决方案不假定多边形的孔集适合主内存。
如果您确定是这样的话,我认为在开始作业之前查询数据库并将查询结果作为文件放入distributedcache会更有效率。

kknvjkwl

kknvjkwl2#

为了使搜索结果到达此处,以下一个或多个选项将非常有用:
用于hadoop的gis工具
空间Hadoop
hadoopgis软件
(披露:我是hadoop gis工具的开发人员之一,受雇于esri。)

相关问题