Java语言常用知识点之字符编码部分

createh53个月前 (01-26)技术教程29

(1)Unicode

Unicode是为整合全世界的所有语言文字而诞生的。任何字符在Unicode中都对应一个值。这个值就可以称为这个字符的Unicode值。

(2)UCS-2和UCS-4

Unicode是为整合全世界的所有语言文字而诞生的。任何文字在Unicode中都对应一个值,这个值称为代码点(Code Point)。代码点的值通常写成 U+ABCD 的格式。而文字和代码点之间的对应关系就是UCS-2(Universal Character Set coded in 2 octets)。顾名思义,UCS-2是用两个字节来表示代码点,其取值范围为U+0000~U+FFFF。为了能表示更多的文字,人们又提出了UCS-4,即用四个字节表示代码点。它的范围为 U+00000000~U+7FFFFFFF,其中U+00000000~U+0000FFFF和UCS-2是一样的。要注意,UCS-2和UCS-4只规定了代码点和文字之间的对应关系,并没有规定代码点在计算机中如何存储。规定存储方式的称为UTF(Unicode Transformation Format),其中应用较多的就是UTF-16和UTF-8了。

(3)UTF-16

UTF-16是完全对应于UCS-2的,即把UCS-2规定的代码点通过Big Endian或Little Endian方式直接保存下来。所以UTF-16采用2个字节来存储Unicode。UTF-16也可以表示UCS-4的部分字符,所以UTF-16也采用4个字节来存储Unicode。

(4)UTF-8

通常情况下,UTF-16统一采用两个字节表示一个字符,虽然在表示上非常简单方便,但是也有其缺点,有很大一部分字符用一个字节就可以表示的现在要用两个字节表示,存储空间放大了一倍,而在网络带宽还非常有限的情况下,这样会增大网络传输的流量,而且也没有必要。而UTF-8采用了一种变长技术,每个编码区域有不同的字码长度。不同类型的字符可以由1-6个字节组成。
UTF-8的编码规则是:
第一:如果一个字节,最高位(第8位)为0,表示这是一个ASCII字符(00-7F)。可见,所有的ASCII编码已经是UTF-8了。
第二:如果一个字节,以11开头,连续的1的个数暗示这个字符的字节数,例如:110xxxxx代表它是双字节UTF-8字符的首字节。
第三:如果一个字节,以10开始,表示它不是首字节,需要向前查找才能得到当前字符的首字节。
关注【Java人生】,关注Java,关注人生。关注Java的魅力,关注人生的多彩!

相关文章

Java 字节流和字符流是什么?怎么用?

Java IO提供了两种流:字节流(byte stream)和字符流(character stream)。字节流用于处理二进制数据,而字符流则用于处理文本数据。Java字节流用InputStream(...

带你学java核心技术图形程序设计:颜色+为文本设定特殊字体+图像

颜色使用Graphics2D类的setPaint方法可以为图形环境上的所有后续的绘制操作选择颜色。要想绘制多种颜色,就需要按照选择颜色,绘制图形,再选择颜色,再绘制图形的过程实施。Color类用于定义...

一个字符串中到底能有多少个字符?我竟然算错了

依照Java的文档, Java中的字符内部是以UTF-16编码方式表示的,最小值是 \u0000 (0),最大值是\uffff(65535), 也就是一个字符以2个字节来表示,难道Java最多只能表示...

一文详解 Java 的八大基本类型(java八种类型)

自从Java发布以来,基本数据类型就是Java语言中重要的一部分,本文就来详细介绍下每种基本类型的具体使用方法和限制。作者 | Jeremy Grifski译者 | 弯月,责编 | 郭芮出品 | CS...

最懂初学者的java教程,详细到每个字符的讲解,小白必看

经过昨天的学习我们了解到了java中有有算术运算符、赋值运算符、关系运算符、逻辑运算符、位运算符、条件运算符、字符串连接符。这么多种类昨天我们已经学习了算术运算符,今天就让我们跟着尚学堂给同学们带来全...

java自学笔记 Char单字符类型(java如何定义char字符数组)

Char类型Java中的`char` 类型是一种基本数据类型,用于表示字符。它是一个16位的无符号Unicode字符,其范围是从 `'\u0000'` 到 `'\uffff'`。Unicode是一种国...