跟着谷歌安卓团队学Rust - String字符串
大家好,我是梦兽编程。欢迎回来与梦兽编程一起刷Rust的系列。
这是由 Google 的 Android开发团队的分享Rust课程。本课程涵盖了 Rust 的方方面面,从基本语法到泛型和错误处理等高级主题。
该课程的最新版本可以在 https://google.github.io/comprehensive-rust/[1]找到。如果您正在其他地方阅读,请检查那里的更新。
如果你喜欢看梦兽编程的版本可以订阅跟着谷歌安卓团队学Rust订阅最新内容,梦兽编程也期待大家关注我的个人网站。
加入梦兽编程微信群,公众号回复111即可加入交流群与梦兽进行交流。
String 字符串
在说字符串之前,如果大家接触过其他语言都知道字符串是一种基础类型,一定定义了就无法修改。这里使用java例子。
string s1 = 'a';
s1 = s1 + 'b';
当你执行s1 = s1 + 'b'时,实际上会创建一个新的字符串对象,该对象包含了原始字符串"s1"和字符'b'的组合。然后,变量"s1"会指向这个新的字符串对象,而不是原始的字符串对象。
因此,在这个例子中,虽然变量"s1"名称没有改变,但它指向的内存地址已经改变了,指向了一个新的字符串对象。
如果你需要对字符串进行操作,在一些高级语言中都推荐使用其他方式进行操作,比如在java中提供了StringBuilder让你更方便的操作字符串,在没有执行toString之前,”字符串“的内存都存放在缓冲区中。
Rust 字符串天生就是缓存区
作为一门现代语言,Rust的是标准堆分配的可增长 UTF-8 字符串缓冲区!!!
fn main() {
let mut s1 = String::new();
s1.push_str("Hello");
println!("s1: len = {}, capacity = {}", s1.len(), s1.capacity());
let mut s2 = String::with_capacity(s1.len() + 1);
s2.push_str(&s1);
s2.push('!');
println!("s2: len = {}, capacity = {}", s2.len(), s2.capacity());
let s3 = String::from("");
println!("s3: len = {}, number of chars = {}", s3.len(), s3.chars().count());
}
在Rust中String::new返回一个新的空字符串,当您知道要向字符串推送多少数据时,请使用 String::with_capacity
capacity 内存中分配的容量,即字符串可以容纳的最大字符数量。当字符串的 len 等于 capacity 时,表示字符串已经达到了内存分配的最大容量。当你往该字符串添加字符时,需要重新分配更大的内存空间,并将原有的字符拷贝到新的内存空间中。这个过程叫做重新分配(reallocating)。
如果你使用golang或者java这类上层语言,可以完全不用了解这一块,这些高级语言gc会帮你处理, 在使用Rust底层语言编写代码时,我们希望通过capacity尽可能减少重新分配的次数。
所以当人们提及到Rust的字符串,大部分都在谈&str或者String。
上面的代码中使用 String::with_capacity 创建一个容量为 s1.len() + 1 的可变字符串 s2,并将 s1 中的内容通过 push_str 方法添加到 s2 中。然后,使用 push 方法添加字符 '!' 到 s2 中。最后,通过 len 和 capacity 方法分别打印出 s2 的长度和容量。
如果你拥有一个不可变长度的字符串可以使用 String::from 进行操作。通过 len 方法打印出 s3 的长度,并使用 chars 方法和 count 方法获取 s3 中字符的数量。
s3 的长度为 8,但实际上只有 2 个字符,因为表情符号 "" 在 UTF-8 编码中占用了 4 个字节。
String::chars
String::chars 方法返回一个迭代器,用于遍历实际的字符。需要注意的是,由于字符簇(grapheme clusters)的存在,一个 char 可能与人们认为的“字符”不同。
在 Rust 中,一个字符(char)的长度可能不止一个字节,因为有些字符可能由多个 Unicode 标量值组成。这种情况下,一个字符被称为一个字符簇(grapheme cluster),它在视觉上被认为是一个字符。例如,一个字符簇可以是一个字母加上一个附加的重音符号。
String::chars 方法返回的迭代器会逐个返回字符簇中的每个字符,而不是返回字节。这样做是为了处理 Unicode 字符的复杂性,确保正确地处理字符簇。
因此,当使用 String::chars 方法时,你将得到一个迭代器,可以逐个访问字符串中的字符,而不必关心字符的长度或复杂性。
String给我们提供了一个迭代器,也就是说你也可对这些字符进行切片操作,比如:
let s4 = s3.chars().nth(i).unwrap();
.nth(i) 是一个迭代器方法,它用于获取迭代器中的第 i 个元素。注意,索引是从 0 开始的,所以 .nth(0) 返回的是第一个字符,.nth(1) 返回的是第二个字符,以此类推。最后,.unwrap() 是一个方法,用于从 Option类型中获取值。在这种情况下,.nth(i) 返回的是一个 Option类型,因为在给定的索引 i 处可能不存在字符。使用 .unwrap() 可以将 Option类型转换为 char 类型,并获取真正的字符值。
let s4 = s3[0..4]
通过 s3[0..4] 可以获取字符串中索引从0到3(左闭右开区间)的子字符串。需要注意的是,切片操作的索引必须是字符边界,即不能将一个字符拆分为两个切片。
总结
Rust的String是一种功能强大、高效和安全的字符串类型,它为开发者提供了丰富的功能和灵活性,使得处理字符串变得更加简单和可靠。无论是初学者还是有经验的开发者,都会发现Rust的String是一个非常有用和值得探索的工具。
参考资料
[1]
https://google.github.io/comprehensive-rust/: https://google.github.io/comprehensive-rust/