在hdfs中跨多个文件构造数百万条记录

aiazj4mn  于 2021-06-03  发布在  Hadoop
关注(0)|答案(0)|浏览(156)

每30秒将创建几个总共包含数百万行(约600万行)的csv文件。csv基本上有时间戳,id1,id2,值。。。。
我想在30秒内构建一个类似于timestamp/id1/id2/的文件夹结构(这意味着我将不得不将这600万行洗牌,并将具有相同ID的行写入一个文件)
我尝试使用spark来整理记录,但是将这些记录写入hdfs需要相当长的时间。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题