Go语言 unicode.RangeTable中的Stride是如何工作的?

wyyhbhjk  于 2023-01-15  发布在  Go
关注(0)|答案(2)|浏览(138)

我需要一些帮助来理解unicode包的RangeTable。
使用这个(可能有帮助的)函数:

func printChars(ranges []unicode.Range16) {
  for _, r := range ranges {

    if r.Hi >= 0x80 { // show only ascii
      break
    }
    fmt.Println("\nLo:", r.Lo, "Hi:", r.Hi, "Stride:", r.Stride)

    for c := r.Lo; c <= r.Hi; c++ {
      fmt.Print(string(c) + " ")
    }
  }
  fmt.Println()
}

对于数字,我可以做printChars(unicode.Digit.R16),数字的序列对我来说是有意义的。

// Lo: 48 Hi: 57 Stride: 1
 // 0 1 2 3 4 5 6 7 8 9

但是,要获取标点符号printChars(unicode.Punct.R16),则会得到

// Lo: 33 Hi: 35 Stride: 1
 // ! " #
 // Lo: 37 Hi: 42 Stride: 1
 // % & ' ( ) *
 // Lo: 44 Hi: 47 Stride: 1
 //  , - . /
 // Lo: 58 Hi: 59 Stride: 1
 // : ;
 // Lo: 63 Hi: 64 Stride: 1
 // ? @
 // Lo: 91 Hi: 93 Stride: 1
 // [ \ ]
 // Lo: 95 Hi: 123 Stride: 28
 // _ ` a b c d e f g h i j k l m n o p q r s t u v w x y z {

我很惊讶小写字母也包括在内。还有,“Stride”是什么意思?除了最后一个字母之外,所有字母都是1,但高低差各不相同。
再举一个例子,printChars(unicode.Pe.R16),我认为它应该只给予结束标点符号:

  • )右括号(U+0029,Pe)
  • ]右方括号(U+005D,Pe)
  • }右花括号(U+007D,Pe)

但是我的函数打印

// Lo: 41 Hi: 93 Stride: 52
 // ) * + , - . / 0 1 2 3 4 5 6 7 8 9 : ; < = > ? @ A B C D E F G H I J K L M N O P Q R S T U V W X Y Z [ \ ]

我想我完全误解了这应该是怎么回事。
如何正确地获得给定类别中的字符列表,例如上面提到的标点符号结尾(Pe)?

44u64gxh

44u64gxh1#

Stride是在范围内迭代的步长,我们将0x80的边界提高一点,并使用Stride进行循环迭代:

package main

import (
    "fmt"
    "unicode"
)

func printChars(ranges []unicode.Range16) {
  for _, r := range ranges {

    if r.Hi >= 0x100 {
      break
    }
    fmt.Println("\nLo:", r.Lo, "Hi:", r.Hi, "Stride:", r.Stride)

    for c := r.Lo; c <= r.Hi; c+=r.Stride {
      fmt.Print(string(c) + " ")
    }
  }
  fmt.Println()
}

func main() {
    printChars(unicode.Punct.R16)
}

下面是输出:

% go run main.go

Lo: 33 Hi: 35 Stride: 1
! " # 
Lo: 37 Hi: 42 Stride: 1
% & ' ( ) * 
Lo: 44 Hi: 47 Stride: 1
, - . / 
Lo: 58 Hi: 59 Stride: 1
: ; 
Lo: 63 Hi: 64 Stride: 1
? @ 
Lo: 91 Hi: 93 Stride: 1
[ \ ] 
Lo: 95 Hi: 123 Stride: 28
_ { 
Lo: 125 Hi: 161 Stride: 36
} ¡ 
Lo: 167 Hi: 171 Stride: 4
§ « 
Lo: 182 Hi: 183 Stride: 1
¶ · 
Lo: 187 Hi: 191 Stride: 4
» ¿

在我看来很正确。

nr9pn0ug

nr9pn0ug2#

下面是一个helper函数,它可以让我们轻松地遍历RangeTable中包含的所有符文:

func RunesFromRange(tab *unicode.RangeTable) <-chan rune {
    res := make(chan rune)
    go func() {
        for _, r16 := range tab.R16 {
            for c := r16.Lo; c <= r16.Hi; c += r16.Stride {
                res <- rune(c)
            }
        }
        for _, r32 := range tab.R32 {
            for c := r32.Lo; c <= r32.Hi; c += r32.Stride {
                res <- rune(c)
            }
        }
        close(res)
    }()
    return res
}

该函数可按如下方式使用:

for c := range RunesFromRange(unicode.Punct) {
    fmt.Printf("%04x %s\n", c, string(c))
}

可运行的代码在Go Playground上(我喜欢输出中以0x0df4开头的字符)。

相关问题