如何使用'regexp'删除所有非英语字符

pnwntuvh  于 2022-12-25  发布在  其他
关注(0)|答案(2)|浏览(149)

ori_string,如何使用regexp删除所有非英语字符?谢谢!

ori_string<-"没a w t _ 中/国.sz"

所希望的结果是

"没awt中国sz"
iovurdzv

iovurdzv1#

我用python编写了它,因为你没有指定任何东西。

def remove_non_english_chinese(text):
    # Use a regex pattern to match any character that is not a letter or number
    pattern = r'[^a-zA-Z0-9\u4e00-\u9fff]'

    # Replace all non-English and non-Chinese characters with an empty string
    return re.sub(pattern, '', text)
41zrol4v

41zrol4v2#

您似乎要删除标点符号和空格:

> regex <- '[[:punct:][:space:]]+'
> gsub(regex, '', ori_string)
[1] "没awt中国sz"

相关问题