5分钟课堂:输入输出汉字乱码的解决方法
从JDK 19升级到JDK 21和22之后,之前示例程序出现键盘输入的汉字在程序处理时乱码。
具体现象:只要是键盘输入的汉字,不管是输出还是保存到文件,汉字都是乱码,而程序中的汉字字符串常量的输出和保存则没有问题。
非UTF-8格式的源文件编译错解决办法
Windows系统往往默认保存文本文件(包括源代码文件)格式为ANSI/GBK。
JDK 21起全面使用UTF-8作为字符编码,带有汉字注释的源代码如果是ANSI格式,则编译会出错:
javac WriteFile.java
WriteFile.java:9: 错误: 编码 UTF8 的不可映射字符 (0xC3)
// ?????д??????????????GBK
^
WriteFile.java:9: 错误: 编码 UTF8 的不可映射字符 (0xFC)
// ?????д??????????????GBK
^
WriteFile.java:9: 错误: 编码 UTF8 的不可映射字符 (0xC1)
// ?????д??????????????GBK
解决办法:编译时选择指定字符编码为GBK
javac -encoding GBK WriteFile.java
或者使用文本编辑器程序将源文件另存为UTF-8格式保存后,直接编译也没有问题。
控制台输入输出汉字乱码解决办法
使用如下代码测试,直接输出汉字字符串常量没有问题,初步分析应该是输入处理的问题。
FileWriter fw = new FileWriter(file);
PrintWriter out = new PrintWriter(fw);
out.println("测试汉字输出 by CHEN");
原来程序的键盘输入语句为:
String s;
BufferedReader in = new BufferedReader(new InputStreamReader(System.in));
while ((s = in.readLine()) != null) {
out.println(s);
}
输出的文件除了测试的内容汉字正常,其他键盘输入的内容乱码。分析原因应该是命令行窗口默认字符编码为GBK,为了避免乱码,需要在转换处理流这里指定字符集编码为GBK。
修改代码指定字符集GBK:
BufferedReader in = new BufferedReader(
new InputStreamReader(System.in,"GBK"));
再次测试,文件内容可正常保存汉字。
附完整测试程序代码:
import java.io.*;
public class WriteFile {
public static void main (String args[]) {
// Create file
File file = new File(args[0]);
try {
// 命令行窗口默认字符编码为GBK
//为了避免乱码,需要在转换处理流这里指定字符集编码为GBK
BufferedReader in = new BufferedReader(
new InputStreamReader(System.in,"GBK"));
//默认输出文件编码为UTF-8
FileWriter fw = new FileWriter(file);
PrintWriter out = new PrintWriter(fw);
out.println("测试汉字输出 by CHEN");
System.out.print("Enter file text. ");
System.out.println("[Type cntl-z to stop.]");
String s;
// Read each input line and echo it to the screen.
while ((s = in.readLine()) != null) {
out.println(s);
}
// Close the buffered reader and the file print writer.
in.close();
out.close();
} catch (IOException e) {
// Catch any IO exceptions.
e.printStackTrace();
}
}
}