我需要一些帮助来理解unicode包的RangeTable。
使用这个(可能有帮助的)函数:
func printChars(ranges []unicode.Range16) {
for _, r := range ranges {
if r.Hi >= 0x80 { // show only ascii
break
}
fmt.Println("\nLo:", r.Lo, "Hi:", r.Hi, "Stride:", r.Stride)
for c := r.Lo; c <= r.Hi; c++ {
fmt.Print(string(c) + " ")
}
}
fmt.Println()
}
对于数字,我可以做printChars(unicode.Digit.R16)
,数字的序列对我来说是有意义的。
// Lo: 48 Hi: 57 Stride: 1
// 0 1 2 3 4 5 6 7 8 9
但是,要获取标点符号printChars(unicode.Punct.R16)
,则会得到
// Lo: 33 Hi: 35 Stride: 1
// ! " #
// Lo: 37 Hi: 42 Stride: 1
// % & ' ( ) *
// Lo: 44 Hi: 47 Stride: 1
// , - . /
// Lo: 58 Hi: 59 Stride: 1
// : ;
// Lo: 63 Hi: 64 Stride: 1
// ? @
// Lo: 91 Hi: 93 Stride: 1
// [ \ ]
// Lo: 95 Hi: 123 Stride: 28
// _ ` a b c d e f g h i j k l m n o p q r s t u v w x y z {
我很惊讶小写字母也包括在内。还有,“Stride”是什么意思?除了最后一个字母之外,所有字母都是1,但高低差各不相同。
再举一个例子,printChars(unicode.Pe.R16)
,我认为它应该只给予结束标点符号:
- )右括号(U+0029,Pe)
- ]右方括号(U+005D,Pe)
- }右花括号(U+007D,Pe)
但是我的函数打印
// Lo: 41 Hi: 93 Stride: 52
// ) * + , - . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ? @ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ]
我想我完全误解了这应该是怎么回事。
如何正确地获得给定类别中的字符列表,例如上面提到的标点符号结尾(Pe)?
2条答案
按热度按时间44u64gxh1#
Stride是在范围内迭代的步长,我们将
0x80
的边界提高一点,并使用Stride
进行循环迭代:下面是输出:
在我看来很正确。
nr9pn0ug2#
下面是一个helper函数,它可以让我们轻松地遍历RangeTable中包含的所有符文:
该函数可按如下方式使用:
可运行的代码在Go Playground上(我喜欢输出中以0x0df4开头的字符)。