我在做Map缩小的工作。当我在单节点集群的机器上运行它时,输出如图所示
hduser@nikhil-VirtualBox:/usr/local/hadoop/hadoop-1.0.4$ bin/hadoop dfs -text /user/hduser/output16/part-r-00000
0 Required Genotype column (s), Must not contain NULLS for required fields, failed, 5, 1: GENE_NAME; 2: GENE_NAME; 4: GENE_NAME; 5: GENE_NAME; 9: GENE_NAME
然而,当我在一个更大的数据集上运行amazonemr时,我得到了以下所有奇怪的字符。原因可能是什么?
SEQorg.apache.hadoop.io.Textorg.apache.hadoop.io.Text\00\00\00\00\00\00\968\D6\FA\E1>X(.q\8B!\ABQ\00\00-\00\00\00
1537044153\8ERequired Genotype column (s), Must not contain NULLS for required fields, failed, 1, 1: VARIANT_START_POSITION; 2: VARIANT_START_POSITION;
1条答案
按热度按时间7lrncoxx1#
标题(seqtexttext)告诉您这是一个
SequenceFile
用一个org.apache.hadoop.io.Text
作为关键和价值。所以这是二进制的,不是纯文本,你可以用
SequenceFile.Reader
.