我有一个可执行文件(黑盒),我正在我的linux本地文件系统中运行。可执行文件接受多个输入文件并生成多个输出文件。
现在,我在hdfs中有了更大的数据集,这些数据集应该作为可执行文件的输入。因此,如果我尝试将hdfs数据下放到本地文件系统中,可执行文件会花费很长时间来处理它们。因此,我想将可执行文件分发到spark/yarn,它位于所有worker/executor节点中。然后,我将hdfs数据集读入sparkDataframe,并将Dataframe写入driver/executor的工作目录,我的可执行程序可以读取和处理这些Dataframe,并在driver节点的工作目录中生成输出。
然后我读取驱动程序工作目录中的输出,并根据需要将它们加载到配置单元表中。
对可能的解决方法有什么想法或建议吗?
暂无答案!
目前还没有任何答案,快来回答吧!