你了解java中的几种编码方式?解决乱码问题可能并不麻烦

createh52个月前 (01-26)技术教程22

前言

编码的转换通常在IO机制中使用,一个好的编码可以为我们节省很多空间,在某种程度上提高我们应用的效率。由于之前就知道String中的转换方式,还有一些工具类,因此今天就好好的整理一下java中jdk提供的几种转换方式,希望对你有帮助。

一、编码转换原理

1、为什么需要编码

我们知道计算机存储信息的最小单位是一个字节8位,能够表示256个字符。这对于早起的英文来说足够了。即使是加上一些常见符号也足够。于是在1965年美国制定了ASCII编码,主要用于英语和西欧语言,一开始128个,后来加到了256。

后来随着时间的发展,中国、日本等国的计算机也开始蓬勃发展,于是计算机不仅仅要存储英文了,也开始存储中文。但是中文我们都知道几万个太多了,一个字节肯定放不下。怎么办呢?一个字节表示不下,那就多用几个字节就好了。这样不仅可以表示汉字,还可以避免了与ASCII编码的冲突。这几个字节在存储的时候再转化为bit,完美!划重点哈,编码解决的就是字节和字符之间的转化问题。

2、编码方式

既然是编码,那些大佬早就考虑到了这些问题,并提供了多种编码方式,常见的有 ASCII、ISO-8859-1、GB2312、GBK、UTF-8、UTF-16 等。它们规定了转化的规则,按照这个规则就可以让计算机正确的表示我们的字符。

像GB2312、GBK、UTF-8、UTF-16等很多种方式都可以表示汉字,他们有什么区别呢?

(1)GB2312

它是双字节编码,总的编码范围是 A1-F7,其中从 A1-A9 是符号区,总共包含 682 个符号,从 B0-F7 是汉字区,包含 6763 个汉字。这个是中国1981年搞出来的。这种编码是一个汉字两个字节。

(2)GBK

它的编码范围是 8140~FEFE(去掉 XX7F)总共有 23940 个码位,它能表示 21003 个汉字。这个是中国在1995年搞出来的,主要是用于GB2312编码的补充。这种编码依然是一个汉字两个字节。

(3)Unicode

上面看到,中国可以做出了一个编码,日本也可以做出来一个编码,时间久了每个国家都有着自己的一套编码,就不可避免的造成冲突。于是Unicode出来了,把所有语言统一起来合成一个规则。这种编码是定长的字节数。

(4)UTF8

既然Unicode是定长的字节数,那么存储一个复杂的汉字可能需要三个字节,但是为了保证是2的幂数集,就会自动扩充为4个字节,别看着一个字节之差,存储的字数多了就会极大的浪费空间。始于是而 UTF-8 采用了一种变长技术,每个编码区域有不同的字码长度。不同类型的字符可以是由 1~6 个字节组成。

以上这些编码方式会为每一个汉字或者是字母建立一个编码库,在编码的时候字母和编码一一对应。

3、为什么会出现乱码?

这个问题就是因为编码和解码是采用了不同的或者是不兼容的编码方案。比如一个用UTF-8编码的后的字符。再用GBK去解码,由于两个字符集的编码库不一样。同一个汉字在两个编码库的位置也不一样。于是就出现了乱码。

4、java如何解决乱码问题?

这个问题其实就是java中如何使用编码规则,因为使用好了编码规则。才可以很好地解决乱码问题。

(1)IO流

编码的目的上面已经说了,主要是字节和字符之间的转化。既然涉及到字节和字符很容易我们就能想到java中的IO流。也就是说java中编码的转换其实就是IO流中的类来实现的。

最核心的就是上面几个类,当然这里只是给出了输入的一部分,还有一些输出的类。

(2)String

String类中也提供了一些转码的方法。下面我们会通过实例来说明。为什么String可以实现呢?这是因为String底层保存的其实就是一个一个字节,而且String还有方法直接转化为字符。所以String肯定也能实现。

(3)Charset

这个Charset是javaNIO中的一个类,整个流程就是读取数据,然后转化为byte,也就是字符。然后重新编码成字符就OK了。

下面我们使用代码来实现一下:

二、代码实现

1、IO流

首先是IO流实现,这种通过输入输出流可以直接的指定编码规则。

?public?void?convertionFile()?throws?IOException?{
??File?file?=?new?File("./愚公要移山.txt");
??FileInputStream?fis?=?new?FileInputStream(file);
??InputStreamReader?inReader?=?new?InputStreamReader(fis,?"gbk");
??FileOutputStream?fos?=?new?FileOutputStream(file);
??OutputStreamWriter?outReader?=?new?OutputStreamWriter(fos,?"utf-8");
????????//这种输入gbk,输出utf-8肯定会出现错误
?}

2、String

使用string是最方便的,代码也比较简洁,适用于字符串的编码。

public?void?convertionString()?throws?UnsupportedEncodingException?{
??String?s?=?"愚公要移山,码农飞上天";
??//?正常情况下转码的过程
??byte[]?b?=?s.getBytes("gbk");//?编码
??String?sa?=?new?String(b,?"gbk");//?解码
??System.out.println(sa);
??//?错误状态下转码的过程
??b?=?sa.getBytes("utf-8");//?编码使用utf-8
??sa?=?new?String(b,?"gbk");//?解码使用gbk
??System.err.println(sa);
}
//控制台输出:
//愚公要移山,码农飞上天
//鎰氬叕瑕佺Щ灞憋紝鐮佸啘椋炰笂澶?

3、Charset

public?void?convertionCharset()?throws?IOException?{
??Charset?charset?=?StandardCharsets.UTF_8;
??//?从字符集中创建相应的编码和解码器
??CharsetEncoder?encoder?=?charset.newEncoder();
??CharsetDecoder?decoder?=?charset.newDecoder();
??//?构造一个buffer
??CharBuffer?charBuffer?=?CharBuffer.allocate(64);
??charBuffer.put('A');
??charBuffer.flip();
??//?将字符序列转换成字节序列
??ByteBuffer?bb?=?encoder.encode(charBuffer);
??//?将字节序列转换成字符序列
??bb.flip();
??CharBuffer?cb?=?decoder.decode(bb);
}

以上就是三种基本的实现方式,当然还有一些其他的,比如Spring中提供的编码转换工具等等。在这里就不说了,因为技术太多,实现的方式也太多,我们就看这几种即可。

相关文章

java安全编码指南之:字符串和编码

简介字符串是我们日常编码过程中使用到最多的java类型了。全球各个地区的语言不同,即使使用了Unicode也会因为编码格式的不同采用不同的编码方式,如UTF-8,UTF-16,UTF-32等。我们在使...

JAVA字符编码和字符集详解(java字符编码格式)

一、JAVA字符集 Java标准字符集:所谓Java标准字符集,就是Java平台支持的字符集:US-ASCII、ISO-8859-1、UTF-8、UTF-16BE、UTF-16LE、UTF-16。 U...

Java的基本语法大全,适合新手,随用随查

第2章 Java语言基础 第2章 Java语言基础 学习任何知识都需要从基础知识开始,同样,学习Java 也需要从Java 的基本语法开始。本章将详细介绍Java 的基本语法,建议初学者不...

字符知识小结(面向Java语言)(编写字符界面的java application程序)

1 字符种类字符主要包括以下几种类型:数字类型,如1、2、3等。字符类型,如a、b、c等。特殊字符,如#、$、%、^、&等不可见字符,如\n(换行符)、\r(回车符)、\t(Tab字符)等。【注意】\...

这份Java面试八股文让329人成功进入大厂,堪称2021最强

前言2021秋招即将来临,很多同学会问Java面试八股文有必要背吗?我的回答是:很有必要。你可以讨厌这种模式,但你一定要去背,因为不背你就进不了大厂。国内的互联网面试,恐怕是现存的、最接近科举考试的制...

Java中你知道几种从字符串中找指定的字符的数量

遇到这样的问题,常规的思路估计就是遍历String,然后逐个对比。下面先看循环遍历循环遍历private static int getNum(String originStr, String targ...