我的公司与世界各地的客户进行了大量的XML转换工作。因此,我们有时会遇到字符编码问题。我们的应用程序中有一个组件,旨在将InputStream规范化为特定的字符编码。它工作得很好......但有一个问题。
在某些情况下,我们需要运行它两次。对于我的生活,我不能告诉你为什么,我一直在努力找出是什么导致它,我什么也没想到。它只是似乎有一些文件,当它第一次运行时,它并没有使它正确,但当它第二次运行时,一切终于好了。
下面是进行编码的代码(假设“encoding”变量是“UTF-8”,它通常是):
char[] buffer = new char[getBufferSize()];
String encoding = getEncoding();
Cache fileCache = getFileCache();
try (InputStreamReader reader = new InputStreamReader(data.getDataStream(), encoding); Writer writer = fileCache.getWriter(encoding)) {
int charsRead;
while ((charsRead = reader.read(buffer)) != -1) {
writer.write(buffer, 0, charsRead);
}
data.setDataStream(fileCache.getInputStream());
} catch(IOException ex) {
throw new Exception(String.format("Unable to normalize stream for %s encoding", encoding), ex);
}
因此,有时需要运行此代码两次,以使流正确地使用指定的编码。
我想让它在第一次尝试时运行得更好。
1.此问题可能有哪些原因?
1.有什么方法可以改进这段代码,使“流规范化”(我们称之为)更有效吗?
1.除了使用InputStreamReader之外,还有哪些修复流编码的替代方法可能更好?
1条答案
按热度按时间jogvjijk1#
使用XML有一些小问题:在第一行中,
<?xml ... ?>
指定了一个编码或默认为UTF-8。因此,XML通常被读取为InputStream(二进制),并留给XML解析器来查找编码。在编写XML时,可以假设它在String中表示。在编写
<?xml ... ?>
的编码时,应该在new OutputStreamWriter(ouputStream, encoding)
中使用。必须在处理编码的程序员编辑器(如JEdit或Notepad++)中测试二进制输入和输出XML的编码。
如果您想立即阅读正确编码的文本:我搜索了XMLInputStreamReader并找到了一些。但是你的Reader类需要做的就是:缓冲ByteArrayOutputStream中的第一个字节,直到处理完
<?xml encoding=...?>
,然后执行InputStreamReader。