字符知识小结(面向Java语言)(编写字符界面的java application程序)

createh52个月前 (01-26)技术教程20

1 字符种类

字符主要包括以下几种类型:

数字类型,如1、2、3等。

字符类型,如a、b、c等。

特殊字符,如#、$、%、^、&等

不可见字符,如\n(换行符)、\r(回车符)、\t(Tab字符)等。

【注意】\n(换行符)和\r(回车符)在windows系统中没有什么区别,都可以当做回车符。但是在linux系统中则是两种效果。在linux系统中,\n表示换到下一行,却不会回到行首;而\r表示光标回到行首,但仍然在本行。

2 JVM字符编码

在 JVM中,字符是使用 Unicode编码的。Unicode编码指的是UCS-2编码方式,即直接用两个字节存入字符的Unicode码。Unicode是一个很大的集合,将世界上所有的符号都纳入其中,每一个符号都给予一个独一无二的编码。需要注意的是,Unicode只是一个符号集,它只规定了符号的二进制代码,却没有规定这个二进制代码应该如何存储。基本多文种平面是Unicode中的一个编码区段。编码从U+0000至U+FFFF。常用汉字在此区间对应。常用字占用2个字节,在多文种平面区。冷僻字占用4个字节,在其它平面。所以,冷僻的汉字无法在Java中使用。

3 char深刻研究

(1)char的包装类是Character。

(2)char占用两个字节存储字符。存储过程为:字符->Unicode代码点->UTF-16编码格式存储->大端/小端->文件

(3)char并不能表示所有的字符,Unicode的编码空间从u\0000到u\10FFFF,而JAVA所表示的范围是:\u0000到\uFFFF,仅仅能表示65535个字符。

(4)utf-16定义:

如果字符编码小于0x10000,也就是十进制的0到65535之内,则直接使用两字节表示;如果字符编码大于0x10000,由于Unicode编码范围最大为0x10FFFF,从0x10000到0x10FFFF之间共有0xFFFFF个编码,也就是需要20个bit就可以标示这些编码。为表示从0x10000到0xFFFFF之间的值,将其前10 bit作为高位和16 bit的数值0xD800(1101 1000 0000 0000)进行逻辑or操作,将后10 bit作为低位和0xDC00(1101 1100 0000 0000)做逻辑or操作,这样组成的4个字节就构成了字符编码。

相关文章

JAVA字符编码和字符集详解(java字符编码格式)

一、JAVA字符集 Java标准字符集:所谓Java标准字符集,就是Java平台支持的字符集:US-ASCII、ISO-8859-1、UTF-8、UTF-16BE、UTF-16LE、UTF-16。 U...

带你学java核心技术图形程序设计:颜色+为文本设定特殊字体+图像

颜色使用Graphics2D类的setPaint方法可以为图形环境上的所有后续的绘制操作选择颜色。要想绘制多种颜色,就需要按照选择颜色,绘制图形,再选择颜色,再绘制图形的过程实施。Color类用于定义...

一个字符串中到底能有多少个字符?我竟然算错了

依照Java的文档, Java中的字符内部是以UTF-16编码方式表示的,最小值是 \u0000 (0),最大值是\uffff(65535), 也就是一个字符以2个字节来表示,难道Java最多只能表示...

java基础——字符与字节的区别(字符 字节 区别)

字符与字节的区别1、计算机存储信息的最小单位,称之为位(bit),音译为比特,二进制的一个“0”或一个“1”叫一位。2、计算机存储容量基本单位是字节(Byte),音译为拜特,8个二进制位组成1个字节。...

java自学笔记 Char单字符类型(java如何定义char字符数组)

Char类型Java中的`char` 类型是一种基本数据类型,用于表示字符。它是一个16位的无符号Unicode字符,其范围是从 `'\u0000'` 到 `'\uffff'`。Unicode是一种国...

Socket粘包问题的3种解决方案,最后一种最完美

在 Java 语言中,传统的 Socket 编程分为两种实现方式,这两种实现方式也对应着两种不同的传输层协议:TCP 协议和 UDP 协议,但作为互联网中最常用的传输层协议 TCP,在使用时却会导致粘...