我想把一种格式的二进制文件转换成序列文件。我有一个python脚本,它在stdin上采用这种格式,可以输出我想要的任何东西。输入格式不是基于行的。单个记录本身是二进制的,因此输出格式不能用分隔符\t或分隔成\n行。我可以使用hadoop流接口来使用二进制格式吗?如何生成二进制输出格式?我假设答案是“不”,除非我听到别的。
lrl1mhuk1#
您可以考虑使用nullwriteable作为输出,并直接在python脚本中生成sequencefile。您可以在github中查找hadooppython项目以查看候选代码:尽管它确实有点大/重,但它确实可以处理sequencefile生成。
1条答案
按热度按时间lrl1mhuk1#
您可以考虑使用nullwriteable作为输出,并直接在python脚本中生成sequencefile。您可以在github中查找hadooppython项目以查看候选代码:尽管它确实有点大/重,但它确实可以处理sequencefile生成。