我试图理解avro,并逐渐了解到它是hadoop使用的数据序列化框架之一。
在学习hadoop的过程中,我了解到hadoop使用自己的serlization框架,而不是java的序列化,所以我可以看到 Writable
, WritableComparable
在hadoop中。
现在,在经过avro之后,它说avro被用作serlization框架。
因为这个我有点困惑。所以,当我们说hadoop自己的序列化框架时,我们指的是avro还是其他东西(它是在hadoop本身中构建的)。
有人能帮我理解吗?
1条答案
按热度按时间wwwo4jvm1#
hadoop可写文件不是avro,而是“其他东西”
avro是一个独立的项目,它的模式模型允许嵌套结构和演化。据我所知,hadoop序列化没有概念模式演化。
thrift是hadoop项目中常见的另一种面向行的序列化格式。
其他(列)数据存储格式包括parquet和orc