在我的用例中,我有一个包含100000条记录的配置单元表。每条记录表示一个必须处理的原始数据文件。对每个原始数据文件的处理将生成一个csv文件,其大小将在10mb到500mb之间变化。最终,这些csv文件将作为一个单独的进程填充到配置单元表中。在我的企业集群中,在hdfs中生成大量数据仍然是不可取的。因此,我更喜欢将这两个独立的进程合并到一个进程中,这样它们就可以处理5000条记录乘以5000条记录。
我的question:-
假设我的rdd引用了整个配置单元表,那么如何对每5000条记录执行原始数据处理步骤(类似于for循环,每次增加5000条记录)
1条答案
按热度按时间kkbh8khc1#
一种方法是使用rdd的滑动功能。您可以在apachespark的mllib包中找到它。下面是你如何使用它。假设我们有一个包含1000个元素的rdd
结果是这样的
您可以在数组上创建foreach并将原始数据处理为csv