我是一个语言学家,所以我写了一个程序来帮助我分析语言文本,把句子和它们的翻译放在一起。
输入:
我ää内梅尔恩õKu on kujunenud kvaternaarieelsel ajal maakoore k公司õ伊库夫利伊库米斯特贾考阿斯特uuristus-ja Kulumisprotside toimel。新日铁属õ松脂üüdse l公司ää内梅尔恩õ奥斯·基鲁卡斯jõ埃斯蒂克。soome lahe kohal voolanud先生ürg neevasse suubusid公司õhja eesti ALAT n公司üüdisj公司õgedest tunduvalt suuremad lisaj公司õ预计起飞时间。
波罗的海盆地形成于前第四纪,是地壳波动和长期勘探磨损过程的结果。上第三纪末,在现在的波罗的海盆地中有一个复杂的流域。比现代河流大得多的古代河流流入了流经芬兰湾的原始涅瓦河。
输出:
我ã¤ã¤内梅尔恩ãµKu on kujunenud kvaternaarieelsel ajal maakoore k公司ãµ波罗的海盆地形成于前第四纪,是地壳波动和长期勘探与磨损作用的结果ãµ松脂ã¼ã¼dse l公司ã¤ã¤内梅尔恩ãµ奥斯·基鲁卡斯jãµ埃斯蒂克在上第三纪末,在现在的波罗的海盆地中有一个复杂的流域ãœrg neevasse suubusid公司ãµhja eesti ALAT n公司ã¼ã¼disj公司ãµgedest tunduvalt suuremad lisaj公司ãµ比现代河流大得多的古老河流流入了原始的涅瓦河,流经芬兰湾
如您所见,输出包括一堆丑陋的符号。在我目前的程序中,如何使用utf-8?
public String fileParse(String filename) {
final String HOMEDIR = "C:\\Users\\(my name)\\Desktop\\";
try {
File myObj = new File(HOMEDIR + filename);
Scanner myReader = new Scanner(myObj);
StringBuilder first_string = new StringBuilder();
while (myReader.hasNextLine()) {
String data = myReader.nextLine();
first_string.append(data);
}
myReader.close();
String other_string = first_string.toString();
String[] split_string = other_string.split("\\.");
int the_integer = split_string.length / 2;
StringBuilder final_output = new StringBuilder();
for (int i = 0; i < the_integer; i++) {
final_output.append(split_string[i] + " " + split_string[i + the_integer] + "\n");
}
return final_output.toString();
} catch (FileNotFoundException e) {
System.out.println("An error occurred.");
e.printStackTrace();
return "";
}
}
}
1条答案
按热度按时间8fq7wneg1#
使用
new Scanner(myObj, "UTF-8")