关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。
6年前关门了。
改进这个问题
我想读/写序列文件包含节俭记录使用hadoop流与python。我已经看了下面的内容,看起来这在hadoop-1722之后是可能的,但是如果有人已经这样做了,并且可以举个例子,那就太好了。
http://mojodna.net/2013/12/27/binary-streaming-with-hadoop-and-nodejs.html
如何在hadoop流媒体中使用“typedbytes”或“rawbytes”?
http://static.last.fm/johan/huguk-20090414/klaas-hadoop-1722.pdf
https://issues.apache.org/jira/browse/hadoop-1722
关键是能够在python中从stdin读取节俭对象。
1条答案
按热度按时间nbnkbykc1#
我终于用hadoopy完成了。
这是我简单的节俭目标。
我使用命令行工具生成python定义,并压缩目录。然后我生成了一些数据,并使用loadtb将其推送到hdfs中。
下面是反序列化数据并将其作为字符串写出的代码。
这是驱动程序脚本。