我对hadoop及其文件格式有点陌生。我有一个与之相关的问题。
在4 datanode集群中,只有一个datanode拥有任何问题需要处理的所有数据(这是一个非常大的数据量,需要使用mapreduce框架并行处理),其余3个datanode是空的。因此,基于数据的局部性,avro和textinputformat对数据的作用有多大的不同,以更快的速度使用/解析数据。
我知道avro相对于textfileformat的基本特性/优点
**Compact**− To make the best use of network bandwidth, which is the most scarce resource in a data center.
**Fast**− Since the communication between the nodes is crucial in distributed systems, the serialization and deserialization process should be quick, producing less overhead.
**Extensible**− Protocols change over time to meet new requirements, so it should be straightforward to evolve the protocol in a controlled manner for clients and servers.
**Interoperable**− The message format should support the nodes that are written in different languages.
但我正在寻找一个更具体和描述性的方式来回答这个特殊情况的答案。我会提前感谢你的帮助。
暂无答案!
目前还没有任何答案,快来回答吧!