处理许多对象的最佳方法?

mzsu5hc0  于 2021-06-03  发布在  Hadoop
关注(0)|答案(0)|浏览(200)

我想存储许多对象,然后再处理它们使用数据进行统计)
现在,我所做的是:
我用thrift序列化了每个文件的一个对象(1节约对象=1个二进制文件)
我还将thrift对象转换为Parquet文件(我很惊讶,因为我的thrift二进制文件大约有1KB,而对于相同的数据,parquet文件有140KB!)
那么,对你来说,最好的方法是什么?
1) 把Parquet锉和 Impala 一起用?
2) 将旧文件用于..我不知道..?(以及如何序列化同一个文件中的多个对象以获得更大的文件,我读取的文件必须非常大才能提高效率)
3) Pig?Hive?和?
4) ... ?
我想用hdfs来存储我的文件。
我使用ruby来创建节俭文件,并使用java将其转换为parquet文件。
是否必须使用mapreduce?我可以晚点用吗?
谢谢您!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题