《Advanced Swift》笔记:Swift字符串长度

1
2
3
4
5

var str = "Pokémon"
var nsstr = str as NSString
str.characters.count // 7
nsstr.length // 8

如上,同样一个字符串,在String和NSString下,它的长度却不一样。因为Unicode编码是一种可变长格式,Unicode字符串是由编码点(code point)组成,而编码点又是由编码单元(code unit)组成。在不同的编码标准下,同一个字符串,可能会有不同的编码方式。Swift中的String内部实现尽量符合“标准等价”的编码规范,使我们更准确的处理字符长度。

在OC的NSString中,我们常用length方法来获取字符串的长度,而在Swift的String中,没有了length方法,我们通常是使用characters.count来获取字符长度,如下:

1
2
3
4
5

var str = "Hello, playground"
var nsstr = str as NSString
str.characters.count // 17
nsstr.length // 17

以上两种方法得出的字符串长度都是17,从代码运行的结果看起来是很正确的,然而事实上真的如此吗,我们再来看一组代码:

1
2
3
4
5

var str = "Pokémon"
var nsstr = str as NSString
str.characters.count // 7
nsstr.length // 8

我们把字符串换成了Pokémon,结果nsstr.length方法计算出的字符串长度为8,而str.characters.count计算出来的是7,很明显后者得出的长度是正确的。

那么为什么会出现这种情况呢。因为我们今天使用的字符串都是使用Unicode编码的,它是一种可变长格式。Unicode字符串是由编码点(code point)组成,而编码点又是由编码单元(code unit)组成。而在不同的编码标准下,一个编码点占用的编码单元是不同的,比如对于UTF-32,一个编码点会占用一个编码单元,而对于UTF-8,一个编码点则会占用一至四个编码单元。

同一个字符串,可能会有不同的编码生产方式,但不管采用何种编码方式,同一个字符串最终应该是彼此相等,且含有相等字符数的,Unicode规范将此称作“标准等价”(canonically equivalent)

比如字符,我们可以通过单一的编码u{00E9}来生成,也可以试用组合编码的方式,即在字母e后面加上一个组合尖音符:u{0065}+u{0301},比如下面两个字符串都是Pokémon,虽然它们采用不同的编码方式,当它们的最终结果应该是等价的。

1
2
3
4
5
6
7

let single = "Pok\u{00E9}mon" // "Pokémon"
let double = "Pok\u{0065}\u{0301}mon" // "Pokémon"

single == double // true
single.characters.count // 7
double.characters.count // 7

Swift的字符串实现是在尽量符合Unicode这种标准等价规范。在Swift中,String不是一个集合,而是提供了多种方式来查看字符串的类型,它可以编码任意数量的编码点,将他们合在一起可以组成单个字位簇(grapheme cluster)。

而NSString类型则不会考虑不同字符组合起来的等价性,它只会按字面值进行计算和比较,因此将上面代码的字符串换成NSString类型,结果就不一样了:

1
2
3
4
5
6
7
8

let nssingle = single as NSString
let nsdouble = double as NSString

nssingle.length // 7
nsdouble.length // 8

nssingle == nsdouble // false

如果要对NSString的字符串进行准确的比较,应该使用compare方法。

坚持原创技术分享,您的支持将鼓励我继续创作!