是否可以执行没有输入文件的hadoop流作业?
在我的用例中,我能够用一个Map器和执行参数为reducer生成必要的记录。目前,我正在使用一个只有一行的存根输入文件,我想删除这个要求。
我们考虑了两个用例。
1)
我想把文件从所有节点都可用的网络位置加载到hdfs中。基本上,我将在Map器中运行ls,并将输出发送到一小组reducer。
我们将对几个模型使用几个不同的参数范围进行拟合。当要运行的测试列表在Map器中生成时,模型名称不会更改,将作为键转到reducer。
是否可以执行没有输入文件的hadoop流作业?
在我的用例中,我能够用一个Map器和执行参数为reducer生成必要的记录。目前,我正在使用一个只有一行的存根输入文件,我想删除这个要求。
我们考虑了两个用例。
1)
我想把文件从所有节点都可用的网络位置加载到hdfs中。基本上,我将在Map器中运行ls,并将输出发送到一小组reducer。
我们将对几个模型使用几个不同的参数范围进行拟合。当要运行的测试列表在Map器中生成时,模型名称不会更改,将作为键转到reducer。
1条答案
按热度按时间pobjuy321#
根据文件,这是不可能的。以下是执行所需的参数:
输入目录名或文件名
输出目录名
Map程序可执行文件或javaclassname
reducer可执行文件或javaclassname
目前看来,提供一个虚拟输入文件是一种可行的方法。