处理许多对象的最佳方法？

mzsu5hc0 于 2021-06-03 发布在 Hadoop

关注(0)|答案(0)|浏览(200)

我想存储许多对象，然后再处理它们使用数据进行统计）
现在，我所做的是：
我用thrift序列化了每个文件的一个对象(1节约对象=1个二进制文件）
我还将thrift对象转换为Parquet文件(我很惊讶，因为我的thrift二进制文件大约有1KB，而对于相同的数据，parquet文件有140KB！）
那么，对你来说，最好的方法是什么？
1）把Parquet锉和 Impala 一起用？
2）将旧文件用于..我不知道..？（以及如何序列化同一个文件中的多个对象以获得更大的文件，我读取的文件必须非常大才能提高效率）
3） Pig？Hive？和？
4) ... ?
我想用hdfs来存储我的文件。
我使用ruby来创建节俭文件，并使用java将其转换为parquet文件。
是否必须使用mapreduce？我可以晚点用吗？
谢谢您！

hadoop impala parquet apache-pig thrift

来源：https://stackoverflow.com/questions/24260108/best-way-to-process-many-objects

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

处理许多对象的最佳方法？

暂无答案！

相关问题

热门标签

最新问答