使用hadoop进行未来大数据分析的数据格式

lskq00tm 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(508)

在阅读了一些关于各种数据格式的内容之后，这些数据格式或多或少都适合于使用hadoop，apacheavro似乎是一个不错的选择，因为它是一种可拆分的容器格式。
因此，可以存储在hdfs中的avro文件可以如下所示：

{
   Header
   Message1
   Message2
   Message3
   ....
}

（这些消息表示来自物联网设备的一些原始数据）
hadoop将能够在不同的节点上并行处理message1-3（至少我是这么想的）
现在我的问题是：我能为那些消息使用任何格式吗，即使是不可拆分的格式，比如protobuf，或者对消息本身使用avro（splittable）还是有意义的？这样做有什么好处吗？你有什么经验？
编辑：目前还没有关于从原始数据中可以获得哪些见解的具体设想。该系统现在应该存储原始数据，分析可能在一两年后出现。我只想找到一个在未来可行的解决方案。

hadoop avro Azure azure-hdinsight bigdata

来源：https://stackoverflow.com/questions/40676528/data-format-for-future-big-data-analytics-with-hadoop

1条答案

按热度按时间

crcmnpdw1#

avro格式以json格式存储数据模式，因此，根据键值对和数据的实际存储，它将它们存储为序列化的原始二进制格式。因此，在工作方面，如果您的应用程序需要具有可拆分和序列化存储需求的大型数据集，avro也可以。如果你的应用程序是统计计算密集型你可以去orc2或Parquet。请详细说明您的用例以根据您的要求进行回答。

赞(0）回复(0）举报 2021-05-29

我来回答

使用hadoop进行未来大数据分析的数据格式

1条答案

相关问题

热门标签

最新问答