我有一个java应用程序,可以解析大约8百万个文件。为了加快解析速度,将应用程序创建为多线程。每个文件都在一个线程中解析。现在我需要在带有两个spark服务器节点的apachehadoop上运行它。最好的做法是什么?-去掉线程,将基于线程的处理转换为map reduce-保持基于线程的处理,但在每个线程内实现map reduce
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!