我正在做一个项目,我们在mongodb上有10亿个图像及其元数据。我想将此图像存储在hdfs上,以便以后进行图像处理。图像的大小在500k到4mb之间,因此,我在hadoop中遇到了小文件的问题。我找到了解决这个问题的三种可能的方法:hbase、har或序列文件。知道我需要在处理这些图像时使用spark而不是map reduce,什么是最合适的解决方案?
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!