regex 标准化R中 Dataframe 单元格中显示为粗体的字符串

vojdkbi0  于 2023-02-05  发布在  其他
关注(0)|答案(1)|浏览(121)

将一个Excel工作表加载到R中, Dataframe 单元格中的一些字符串显示为粗体,并且格式不同。例如:

𝐇𝐚𝐢𝐝𝐚𝐫𝐚

当我把这个字符串复制粘贴到R控制台时,它看起来像这样:

有人知道如何在R中修复这个问题(将这些字符串恢复为标准格式)吗?
希望避免返回Excel进行修复。
谢谢!

y1aodyip

y1aodyip1#

这些实际上是Unicode中Mathematical Alphanumeric Symbols块中的UTF-8编码字母,它们不能很好地Map回R中的“标准”ASCII字母,除非你有一个预先存在的Map函数,比如utf8包中的utf8_normalize

library(utf8)

utf8_normalize('𝐇𝐚𝐢𝐝𝐚𝐫𝐚', map_compat = TRUE)
#> [1] "Haidara"

不过,我强烈建议您在导入之前修复Excel文件,以避免不得不这样做;它可以和你在这里给我们的例子一起工作,但是在转换你的其他字符串时可能会有不受欢迎的意外。

相关问题