如何在java字符串中检测unicode字符？

6yjfywim 于 2021-06-30 发布在 Java

关注(0)|答案(6)|浏览(403)

假设我有一个包含ü. 我如何找到所有这些unicode字符？我应该测试他们的代码吗？我该怎么做？
例如，给定字符串“aü十ü", 我想把它改成“ayxy”。我想对其他unicode字符也这样做，我不想把它们存储在某种翻译Map中。

Java String unicode

来源：https://stackoverflow.com/questions/1673544/how-do-i-detect-unicode-characters-in-a-java-string

6条答案

按热度按时间

ou6hu8tu1#

你可以循环你的字符串和每个字符的调用

If (Character.UnicodeBlock.of(c) != Character.UnicodeBlock.BASIC_LATIN) {
 // replace with Y
}

赞(0）回复(0）举报 2021-06-30

hmae6n7t2#

班级 Character 还提供了一些有趣的方法。看看吧。

Character.UnicodeBlock.of('a') == Character.UnicodeBlock.BASIC_LATIN; //true

Character.UnicodeBlock.of('�') == Character.UnicodeBlock.BASIC_LATIN; //false

赞(0）回复(0）举报 2021-06-30

guicsvcw3#

我不清楚转化“a”究竟能得到什么ü十ü" 到“ayxy”。这是因为ü 在一种特定的语言中发音像y吗？什么语言？还有什么其他规则可以适用？
在术语方面。。。

"a"

上面是一个unicode字符串。它包含一个utf-16编码字符。
如果您希望将字符范围限制为英语字母，请查看此答案中执行的规范化。

赞(0）回复(0）举报 2021-06-30

monwx1rj4#

“unicode字符”的定义很模糊，但将被视为标准iso 8859字符集未涵盖的utf-8字符。如果在您的例子中是这样，则循环遍历字符串中的所有字符，并测试其代码点以确定它是否在给定的字符集中。
或者，使用 Map<Character, Character> 以及Map中包含匹配键的字符。例如：

Map<Character, Character> charReplacementMap = new HashMap<Character, Character>() {{
    put('Ü', 'Y');
    // Put more here.
}};

String originalString = "AÜAÜ";
StringBuilder builder = new StringBuilder();

for (char currentChar : originalString.toCharArray()) {
    Character replacementChar = charReplacementMap.get(currentChar);
    builder.append(replacementChar != null ? replacementChar : currentChar);
}

String newString = builder.toString();

或者，你的意思是“所有带音调符号的字符”？如果是，则使用 java.text.Normalizer 要删除音调符号：

/**
 * Remove any diacritical marks (accents like ç, ñ, é, etc) from
 * the given string (so that it returns plain c, n, e, etc).
 * @param string The string to remove diacritical marks from.
 * @return The string with removed diacritical marks, if any.
 */
public static String removeDiacriticalMarks(String string) {
    return Normalizer.normalize(string, Form.NFD)
        .replaceAll("\\p{InCombiningDiacriticalMarks}+", "");
}

一个陷阱，ü 会变成u，而不是y。不知道你是不是在找这个。如果要用发音字符替换，则确实需要创建Map。当然，这是一个乏味的工作，但它做的时间比你需要遵循这个主题。

赞(0）回复(0）举报 2021-06-30

sauutmhj5#

你可以反过来问这个字符是不是ascii字符。

public static boolean isAscii(char ch) {
    return ch < 128;
}

当然，你必须逐个分析字符串。
（该方法来自commons lang charutils，其中包含大量有用的字符方法）

赞(0）回复(0）举报 2021-06-30

qcuzuvrc6#

从您的示例中，我不确定您要做什么-如果您只是尝试用y替换所有非ascii值，那么您可以在字符串中循环查找0到127范围之外的代码点，并用y替换这些代码点。

赞(0）回复(0）举报 2021-06-30

我来回答

如何在java字符串中检测unicode字符？

6条答案

相关问题

热门标签

最新问答