java—将json转换为hadoop的顺序文件

rsaldnfx  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(504)

我在hdfs中存储了一个json文件(大小2-3gb)。我的苍蝇看起来像这样

{ "DateTime" : 24-08-2015T00:00:00, "Cost":53.09,"UID":9,"Channel":"some Channel"}
{ "DateTime" : 25-08-2015T00:00:00, "Cost":54.09,"UID":8,"Channel":"some Channel2"}
{ "DateTime" : 24-08-2015T00:00:00, "Cost":56.09,"UID":7,"Channel":"some Channel3"}

我正在尝试编写一个map reduce来将这个json文件转换成连续文件,然后读取json对象。因为我需要更快的执行使用gson,然后在java对象中转换它将需要时间。我在google上搜索了一下,发现jaql可以做同样的事情,但是我没有得到任何javamr代码来做。我甚至没有为jaql找到mavenjar。我无法在服务器上显式设置它。有没有办法用java代码来实现它?

brjng4g3

brjng4g31#

我会给蒂卡的
这个项目的描述:使用mapreduceforhadoop将apachetika与jaql集成
这个项目有助于克服使用jaql在hadoop中处理多个小文件的低效性。此外,它允许使用apachetika在hadoop中处理和分析二进制文档,方法是将其集成到jaql中,从而生成mapreduce作业。请检查样品

相关问题