如何根据字符集验证字符串?

7cjasjjr  于 2021-06-29  发布在  Java
关注(0)|答案(3)|浏览(320)

假设任何给定的字符串:如何根据预定义的字符集验证它?我想用ascii码 65-90 (A-Z), 33 (!), 36 ($), 38 (&), 63 (?) .
我需要在整个字符串上应用正则表达式吗?还是逐字读取字符串并匹配 Integer 在预定范围内?

String test = "ASDQWE!&";
for (int i = 0; i < test.length; i++) {
        int num = (int) val.charAt(i);
        //TODO validate
}
a1o7rhls

a1o7rhls1#

最好使用正则表达式。因为您可以用regex验证o(n)复杂度,但逐个匹配字符将具有o(m*n)复杂度。

qc6wkl3g

qc6wkl3g2#

我很好奇,决定用jmh作为基准;以下是我的发现:

@State(Scope.Benchmark)
@BenchmarkMode(Mode.AverageTime)
@OutputTimeUnit(TimeUnit.NANOSECONDS)
@Warmup(iterations = 5, time = 500, timeUnit = TimeUnit.MILLISECONDS)
@Measurement(iterations = 10, time = 500, timeUnit = TimeUnit.MILLISECONDS)
@Fork(3)
public class MyBenchmark {

    @Param({"ASDQWE!&"})
    private String test;

    private static final Pattern PATTERN = Pattern.compile("[A-Z!$&?]*");

    public static void main(String[] args) throws Exception {
        org.openjdk.jmh.Main.main(args);
    }

    @Benchmark
    public boolean oldMethod() {
        for (int i = 0; i < test.length(); i++) {
            int c = test.charAt(i);

            if (c >= 65 && c <= 90) {
                continue;
            }

            switch (test.charAt(i)) {
                case 33:
                case 36:
                case 38:
                case 63:
                    break;
                default:
                    return false;
            }
        }
        return true;
    }

    @Benchmark
    public boolean newMethod() {
        return PATTERN.matcher(test).matches();
    }
}

及其结果:

Benchmark                (test)  Mode  Cnt   Score   Error  Units
MyBenchmark.newMethod  ASDQWE!&  avgt   30  55.848 ± 1.275  ns/op
MyBenchmark.oldMethod  ASDQWE!&  avgt   30  14.586 ± 0.034  ns/op

即使编译了一个模式,很明显 String 速度会更快,但使用正则表达式时可读性肯定更高。

tquggr8v

tquggr8v3#

使用对应于ascii 65-90的unicode字符范围:

String test = "ASDQWE!&";
if (test.matches("[\u0041-\u005A]*")) {
    System.out.println("match!");
}

您的示例字符串实际上与ascii65-90不匹配,但是 ASDQWE ,结尾没有标点符号,是。

演示

相关问题