我的工作包括三个步骤。我的输入是存储在amazons3中的加密json对象(每行一个)(s3e://)。
作业参数:
job.setInputFormatClass(TextInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
其他一些重要参数:
mapred.min.split.size 0
mapred.job.reuse.jvm.num.tasks -1
fs.s3.block.size 67108864
我面临的问题是,第二步的Map程序几乎总是失败,唯一的例外是json被错误地终止。经过进一步调查,我确定输入文件中的json本身是正确的,并且是Map器读取了不完整的值。读取的值 TextInputFormat
不完整且错误终止。
JsonException Value: {..."tag_action_code":"ndi","tag_value":"tribhutes
FATAL - JSON exception while handling exception
org.json.JSONException: Unterminated string at character 390
at org.json.JSONTokener.syntaxError(JSONTokener.java:410)
at org.json.JSONTokener.nextString(JSONTokener.java:244)
at org.json.JSONTokener.nextValue(JSONTokener.java:341)
at org.json.JSONObject.<init>(JSONObject.java:190)
at org.json.JSONObject.<init>(JSONObject.java:402)
at com.amazon.associates.lib.ExtractItemMapReduce.putItemProcessingStateToExtracItemText(ExtractItemMapReduce.java:92)
at com.amazon.associates.mapred.common.FatTireMapper$1.putItemProcessingState(FatTireMapper.java:51)
at com.amazon.associates.mapred.common.FatTireMapReduceExecutor.handleException(FatTireMapReduceExecutor.java:35)
at com.amazon.associates.mapred.common.FatTireMapperExecutor.execute(FatTireMapperExecutor.java:55)
at com.amazon.associates.mapred.common.FatTireMapper.map(FatTireMapper.java:63)
at com.amazon.associates.mapred.common.FatTireMapper.map(FatTireMapper.java:21)
at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:144)
at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:771)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:375)
at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1059)
at org.apache.hadoop.mapred.Child.main(Child.java:249)
Filename: part-00004 Split Details: Start: 0 Length: 593575152
Key: 536936059 Value: {..."tag_action_code":"ndi","tag_value":"tribhutes
这种情况一直在发生。但有趣的是,有时第二步走完了,第三步就失败了。
我的测试数据非常庞大,在成功完成第一步(总是经过)之后,我得到5550-600MB的检查点间歇文件,这些文件被输入到第二步。
在第二步的输入没有加密的一次尝试中,它成功了。
我被卡住了。任何指点或帮助将不胜感激。
1条答案
按热度按时间r1wp621o1#
在加密方案中,记录的加密版本是否可能包含换行符?如果是这样,这将导致hadoop错误地将json对象视为两个单独的记录。我猜这里发生了什么事。在使用textinputformat时,一定要非常小心地从数据中转义或删除换行符。