Java中字符串的长度值

createh51周前 (03-27)技术教程6

我第一次知道:

在 UTF - 8 编码中,英文字符和空格占 1 个字节,中文字符通常占 3 个字节。

在 GBK 编码中,英文字符和空格占 1 个字节,中文字符占 2 个字节。

上代码,看图:


public static int strGetCnLength(String str) {
    if (str == null) {
        return 0;
    }
    int result = 0;

    for (int i = 0; i < str.length(); ++i) {
        char c = str.charAt(i);
        // 判断字符是否为中文字符(Unicode 范围)
        if (charIsChinese(c)) {
            result += 2;
        } else {
            result += 1;
        }
    }
    return result;
}

private static boolean charIsChinese(char c) {
    // 中文字符的 Unicode 范围
    Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
    return ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS
            || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_IDEOGRAPHS
            || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_A
            || ub == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS_EXTENSION_B;
}

public static int strCodePointLength(String text) {
    if (text == null || text.isEmpty()) {
        return 0;
    }
    return text.codePointCount(0, text.length());
}

public static int strGetBytesLength(String text,String charsetName ) {
    if (text == null || text.isEmpty()) {
        return 0;
    }
    try {
        byte[] utf8Bytes = text.getBytes(charsetName);
        return utf8Bytes.length;
    }
    catch(Exception err){
        err.printStackTrace();
        return -1;
    }
 }

public static void main(String[] args) {
    String testStr = "Hello 世界";
    int len = strGetCnLength(testStr);
    System.out.println("字符串长度(中文算 2 个): " + len);
    len = strCodePointLength(testStr);
    System.out.println("strCodePointLength: " + len);
    len = strGetBytesLength(testStr,"UTF-8");
    System.out.println("strGetBytesLength(UTF-8): " + len);
    len = strGetBytesLength(testStr,"GBK");
    System.out.println("strGetBytesLength(GBK): " + len);
}

输出:

字符串长度(中文算 2 个): 10
strCodePointLength: 8
strGetBytesLength(UTF-8): 12
strGetBytesLength(GBK): 10

豆包给的解释:

以下是对这段 Java 代码输出结果的详细分析与实际运行后的输出:

代码功能概述



这段 Java 代码定义了四个静态方法用于计算字符串的不同长度:



  1. strGetCnLength:将中文字符计为 2 个字符长度,其他字符计为 1 个字符长度,计算字符串的总长度。
  2. strCodePointLength:使用 codePointCount 方法计算字符串中实际的字符数量(考虑 Unicode 代理对)。
  3. strGetBytesLength:将字符串按照指定的字符编码转换为字节数组,并返回字节数组的长度。
  4. main 方法:用于测试上述三个方法,使用字符串 "Hello 世界" 作为测试用例,并分别调用三个方法计算不同类型的长度,然后将结果打印输出。

输出结果分析



  • strGetCnLength 方法:字符串 "Hello 世界" 中,英文字符和空格共 6 个,每个计为 1 个长度;中文字符有 2 个,每个计为 2 个长度。所以总长度为 6 * 1 + 2 * 2 = 10。
  • strCodePointLength 方法:该方法计算字符串中实际的字符数量,字符串 "Hello 世界" 共有 8 个字符(包括英文字符、空格和中文字符)。因此结果为 8。
  • strGetBytesLength 方法(UTF - 8 编码):在 UTF - 8 编码中,英文字符和空格占 1 个字节,中文字符通常占 3 个字节。字符串 "Hello 世界" 中,6 个英文字符和空格共占 6 个字节,2 个中文字符共占 2 * 3 = 6 个字节。所以总字节长度为 6 + 6 = 12。
  • strGetBytesLength 方法(GBK 编码):在 GBK 编码中,英文字符和空格占 1 个字节,中文字符占 2 个字节。字符串 "Hello 世界" 中,6 个英文字符和空格共占 6 个字节,2 个中文字符共占 2 * 2 = 4 个字节。所以总字节长度为 6 + 4 = 10。


问:

java代码中,用utf-8存储,数据库中一个中文字占用几个字节?


相关文章

吊打面试官(十)--Java语言中字符串相关处理一文全掌握

导读在Java中,`String`、`StringBuilder`和`StringBuffer`是处理字符串的三个常用类。它们各有特点,适用于不同的场景。下面详细介绍它们的使用场景、区别、实现原理、使...

如何解决java老开源系统登录密码在浏览器开发工具里暴露的问题

网上找的若依开源框架,拿来登录密码直接暴露在浏览器开发工具里面,拿这个东西直接给甲方需求方,肯定过不了关的。甲方假如哪天发现了这个问题,肯定会要求退工程款,拿来主义没问题,但是得优化。包括另一个开源项...

javascript超长知识归纳总结

基本概念javascript简称js,是一种脚本语言,用来操作HTML中的节点,产生动态效果。包括三大模块。ECMAScript:是javascript核心语法;json是其中一种轻量级的数据交换格式...

Java 8之后的那些新特性(二):文本块 Text Blocks

继续聊Java 8之后的新特性,这周我讲下Text Blocks这个特性。Text Blocks最开始是个JDK 14引进的,当时为预览版功能,在JDK 15中被正式确定。这意味着如果你想使用这个功能...

Java KMP算法:让字符串匹配不再烦恼

前言在编程的世界里,字符串匹配就像一场“表面简单,内里复杂”的戏码。表面上,两个字符串的比较似乎跟找朋友的名字一样容易;可当数据量爆炸时,那些原本看似轻松的算法瞬间变得如同用手撕牛皮纸,令人崩溃。别担...