sequencefile作为文本cli,带有自定义类

bjg7j2ky  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(429)

我有一个hdfs文件 SequenceFile 格式。关键是 Text 值是一个自定义的可序列化类(比如说) MyCustomClass . 我想通过 hadoop fs -text 命令,但它失败了,因为hadoop不知道 MyCustomClass 定义是。
我也试过了 hdfs dfs - text 但得到了同样的回应。使用hadoop2。
有没有一种方法可以指定类(例如通过jar,比如 -cp myjar.jar 选项)?

mftmpeh8

mftmpeh81#

hadoop fs -libjars my-lib.jar -text output-dir/part-r-*

这将读入序列文件键/值对,并在两个对象上调用tostring(),在输出到stdout时将它们分开。libjars指定hadoop可以在哪里找到您的自定义键/值类
如何在hadoop中从文本解析customwriteable

k7fdbhmy

k7fdbhmy2#

您可以使用添加包含自定义可写类的jar -libjars .
例如: hadoop fs -libjars <JAR>.jar -text <DIR>

相关问题