我试着…用hadoop来解决这个问题。什么是最好的文件格式avro或sequencefile,以防用python将图像存储在hdfs中并在之后进行处理?sequencefile是面向键值的,所以我认为avro文件会更好吗?
v9tzhpje1#
我使用sequencefile在hdfs中存储图像,效果很好。avro和sequencefile都是二进制文件格式,因此它们可以有效地存储图像。作为sequencefile中的键,我通常使用原始图像文件名。sequencefile用于许多图像处理产品,如openimaj。可以使用现有工具处理sequencefile中的图像,例如openimaj sequencefiletool。另外,你可以看看hipiimagebundle。这是hipi(hadoop图像处理接口)提供的一种特殊格式。根据我的经验,hipiimagebundle比sequencefile有更好的性能。但in只能由hipi使用。如果文件数量不多(小于1m),可以尝试将它们存储在一个大文件中而不打包,并使用combinefileinputformat来加快处理速度。我从来没有使用avro来存储图像,我也不知道有哪个项目使用它。
1条答案
按热度按时间v9tzhpje1#
我使用sequencefile在hdfs中存储图像,效果很好。avro和sequencefile都是二进制文件格式,因此它们可以有效地存储图像。作为sequencefile中的键,我通常使用原始图像文件名。
sequencefile用于许多图像处理产品,如openimaj。可以使用现有工具处理sequencefile中的图像,例如openimaj sequencefiletool。
另外,你可以看看hipiimagebundle。这是hipi(hadoop图像处理接口)提供的一种特殊格式。根据我的经验,hipiimagebundle比sequencefile有更好的性能。但in只能由hipi使用。
如果文件数量不多(小于1m),可以尝试将它们存储在一个大文件中而不打包,并使用combinefileinputformat来加快处理速度。
我从来没有使用avro来存储图像,我也不知道有哪个项目使用它。