使用hadoop进行未来大数据分析的数据格式

lskq00tm  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(508)

在阅读了一些关于各种数据格式的内容之后,这些数据格式或多或少都适合于使用hadoop,apacheavro似乎是一个不错的选择,因为它是一种可拆分的容器格式。
因此,可以存储在hdfs中的avro文件可以如下所示:

{
   Header
   Message1
   Message2
   Message3
   ....
}

(这些消息表示来自物联网设备的一些原始数据)
hadoop将能够在不同的节点上并行处理message1-3(至少我是这么想的)
现在我的问题是:我能为那些消息使用任何格式吗,即使是不可拆分的格式,比如protobuf,或者对消息本身使用avro(splittable)还是有意义的?这样做有什么好处吗?你有什么经验?
编辑:目前还没有关于从原始数据中可以获得哪些见解的具体设想。该系统现在应该存储原始数据,分析可能在一两年后出现。我只想找到一个在未来可行的解决方案。

crcmnpdw

crcmnpdw1#

avro格式以json格式存储数据模式,因此,根据键值对和数据的实际存储,它将它们存储为序列化的原始二进制格式。因此,在工作方面,如果您的应用程序需要具有可拆分和序列化存储需求的大型数据集,avro也可以。如果你的应用程序是统计计算密集型你可以去orc2或Parquet。请详细说明您的用例以根据您的要求进行回答。

相关问题