我正在用jackson在hadoop中实现一个json记录阅读器。现在我正在用junit+mrunit进行本地测试。json文件每个都包含一个对象,在一些头之后,它有一个字段,其值是一个条目数组,我希望每个条目都被理解为一个记录(因此我需要跳过那些头)。
我可以通过将fsdatainputstream提升到读取点来实现这一点。在本地测试中,我执行以下操作:
fs = FileSystem.get(new Configuration());
in = fs.open(new Path(filename));
long offset = getOffset(in, "HEADER_START_HERE");
in.seek(offset);
其中getoffset是一个函数,它将inputstream指向字段值开始的位置,如果我们看一下 in.getPos()
价值观。
我正在读第一张唱片:
ObjectMapper mapper = new ObjectMapper();
JsonNode actualObj = mapper.readValue (in, JsonNode.class);
第一张唱片还不错。我可以用 mapper.writeValueAsString(actualObj)
它读得很好,它是有效的。
在这之前没问题。
所以我尝试迭代对象,方法是:
ObjectMapper mapper = new ObjectMapper();
JsonNode actualObj = null;
do {
actualObj = mapper.readValue (in, JsonNode.class);
if( actualObj != null) {
LOG.info("ELEMENT:\n" + mapper.writeValueAsString(actualObj) );
}
} while (actualObj != null) ;
它读到了第一个,但后来坏了:
java.lang.NullPointerException: null
at org.apache.hadoop.fs.BufferedFSInputStream.getPos(BufferedFSInputStream.java:54)
at org.apache.hadoop.fs.FSDataInputStream.getPos(FSDataInputStream.java:57)
at org.apache.hadoop.fs.ChecksumFileSystem$ChecksumFSInputChecker.readChunk(ChecksumFileSystem.java:243)
at org.apache.hadoop.fs.FSInputChecker.readChecksumChunk(FSInputChecker.java:273)
at org.apache.hadoop.fs.FSInputChecker.read1(FSInputChecker.java:225)
at org.apache.hadoop.fs.FSInputChecker.read(FSInputChecker.java:193)
at java.io.DataInputStream.read(DataInputStream.java:132)
at org.codehaus.jackson.impl.ByteSourceBootstrapper.ensureLoaded(ByteSourceBootstrapper.java:340)
at org.codehaus.jackson.impl.ByteSourceBootstrapper.detectEncoding(ByteSourceBootstrapper.java:116)
at org.codehaus.jackson.impl.ByteSourceBootstrapper.constructParser(ByteSourceBootstrapper.java:197)
at org.codehaus.jackson.JsonFactory._createJsonParser(JsonFactory.java:503)
at org.codehaus.jackson.JsonFactory.createJsonParser(JsonFactory.java:365)
at org.codehaus.jackson.map.ObjectMapper.readValue(ObjectMapper.java:1158)
为什么会发生这种异常?
这和在当地读书有关系吗?
在重复使用一个程序时是否需要某种重置或其他什么 ObjectMapper
或者它的底层流?
1条答案
按热度按时间z8dt9xmd1#
我设法解决了这个问题。如果有帮助:
首先,我使用的是jackson1.x的最新版本。好像有一次
JsonParser
用InputStream
,它控制了它。所以,使用readValue()
,一旦它被读取(内部调用_readMapAndClose()
自动关闭流。您可以设置一个设置来告诉JsonParser
不关闭底层流。你可以把它传给你的朋友JsonFactory
在你创建你的JsonParser
:请注意,您负责关闭流(在我的情况下是fsdatainputstream)。所以,答案是:
为什么会发生这种异常?
因为解析器管理流,并在readvalue()之后关闭它。
这和在当地读书有关系吗?
不
重用objectmapper或其底层流时是否需要某种重置或其他操作?
不需要。当使用流式api与类似objectmapper的方法混合使用时,您需要注意的是,有时Map器/解析器可能会控制底层流。请参阅jsonparser的javadoc,并检查每个读取方法的文档以满足您的需要。