我有一些输入文本,看起来像这样:
names <- c("🅴🅽🆈🅸🆂 🆂🆄🅰🆉🅰", "𝐕𝐈𝐂𝐓𝐎𝐑𝐈𝐀 𝐋𝐀𝐍𝐆𝐄𝐋")
users <- c("user1", "user2")
df <- cbind(names, users) %>% as.data.frame()
我尝试将其转换为R中可读的文本,因为现在,它似乎并没有这样标识它。例如,如果我尝试将它们转换为小写:
df$lowername <- tolower(df$names)
它只会吐出同样的东西。
有没有什么方法可以把这样的文本字符串转换成R中可读的文本格式,这样我就可以像处理其他字符串一样处理/清理文本了?
所以名字就变成了“恩尼斯·苏阿扎”和“维多利亚·兰格尔”?
2条答案
按热度按时间rryofs0p1#
这里有一个选择
whlutmcx2#
一个不完美的方法是识别代表字母的ASCII码,然后找出ASCII码和代表字母“正常”文本的代码之间的区别。由于这里有多种非标准类型,不幸的是(据我所知),必须对每种类型都进行区分。
由于所有字母之间的差异都相同,因此您可以使用
utf8ToInt
和intToUtf8
应用此差异来转换:您可以通过在函数中进行 Package 并将格式类型保留为向量的名称来使其更简洁一些,但仍然特定于格式类型:
我希望一个比我更聪明的编码器可以通过使它可扩展来改进这个答案。好问题-祝你好运!