windows java控制台输出的默认字符编码

u5rb5r59  于 2023-08-07  发布在  Windows
关注(0)|答案(1)|浏览(119)

Java如何确定System.out使用的编码?
给定以下类:

import java.io.File;
import java.io.PrintWriter;

public class Foo
{
    public static void main(String[] args) throws Exception
    {
        String s = "xxäñxx";
        System.out.println(s);
        PrintWriter out = new PrintWriter(new File("test.txt"), "UTF-8");
        out.println(s);
        out.close();
    }
}

字符串
它保存为UTF-8,并在Windows系统上使用javac -encoding UTF-8 Foo.java编译。
然后在git-bash控制台上(使用UTF-8字符集)我这样做:

$ java Foo
xxõ±xx
$ java -Dfile.encoding=UTF-8 Foo
xxäñxx
$ cat test.txt
xxäñxx
$ java Foo | cat
xxäñxx
$ java -Dfile.encoding=UTF-8 Foo | cat
xxäñxx


这是怎么回事
显然,java会检查它是否连接到终端,并在这种情况下更改其编码。有没有一种方法可以强制Java简单地输出纯UTF-8?
我也用cmd控制台做了同样的尝试。重定向STDOUT似乎没有任何区别。如果没有file.encoding参数,它将输出ansi编码,而参数则输出utf8编码。

0s7z1bwu

0s7z1bwu1#

我假设您的控制台仍然在cmd.exe下运行。我怀疑你的控制台真的期待UTF-8 -我希望它真的是OEM DOS编码(eidogg。850 or 437 .)
Java将在JVM初始化期间使用默认编码集对字节进行编码。
在我的PC上复制:

java Foo

字符串
Java编码为Windows-1252;控制台解码为IBM 850。结果:Mojibake

java -Dfile.encoding=UTF-8 Foo


Java编码为UTF-8;控制台解码为IBM 850。结果:Mojibake

cat test.txt


cat将文件解码为UTF-8; cat编码IBM 850;控制台解码为IBM 850。

java Foo | cat


Java编码为Windows-1252; cat解码为windows-1252; cat编码IBM 850;控制台解码为IBM 850

java -Dfile.encoding=UTF-8 Foo | cat


Java编码为UTF-8; cat解码为UTF-8; cat编码IBM 850;控制台解码为IBM 850

  • cat* 的这个实现必须使用启发法来确定字符数据是否为UTF-8,然后对来自UTF-8或ANSI的数据进行转码(例如windows-1252)到控制台编码(例如IBM850。

这可以通过以下命令进行确认:

$ java HexDump utf8.txt
78 78 c3 a4 c3 b1 78 78

$ cat utf8.txt
xxäñxx

$ java HexDump ansi.txt
78 78 e4 f1 78 78

$ cat ansi.txt
xxäñxx

  • cat* 命令可以进行此判断,因为e4 f1不是有效的UTF-8序列。

您可以通过以下方式更正Java输出:

  • 将控制台编码设置为系统ANSI值
  • 使用Console类型
  • 使用一些shiv层,因为你正在做与 cat
  • HexDump* 是一个简单的Java应用程序:
import java.io.*;
class HexDump {
  public static void main(String[] args) throws IOException {
    try (InputStream in = new FileInputStream(args[0])) {
      int r;
      while((r = in.read()) != -1) {
        System.out.format("%02x ", 0xFF & r);
      }
      System.out.println();
    }
  }
}

相关问题