avro文件类型?

kiz8lqtg  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(475)

我试着…用hadoop来解决这个问题。
什么是最好的文件格式avro或sequencefile,以防用python将图像存储在hdfs中并在之后进行处理?
sequencefile是面向键值的,所以我认为avro文件会更好吗?

v9tzhpje

v9tzhpje1#

我使用sequencefile在hdfs中存储图像,效果很好。avro和sequencefile都是二进制文件格式,因此它们可以有效地存储图像。作为sequencefile中的键,我通常使用原始图像文件名。
sequencefile用于许多图像处理产品,如openimaj。可以使用现有工具处理sequencefile中的图像,例如openimaj sequencefiletool。
另外,你可以看看hipiimagebundle。这是hipi(hadoop图像处理接口)提供的一种特殊格式。根据我的经验,hipiimagebundle比sequencefile有更好的性能。但in只能由hipi使用。
如果文件数量不多(小于1m),可以尝试将它们存储在一个大文件中而不打包,并使用combinefileinputformat来加快处理速度。
我从来没有使用avro来存储图像,我也不知道有哪个项目使用它。

相关问题