我甚至不知道该如何去寻找这个。
在我的mysql数据中, SELECT "Anaïs" = "Anais"
产生“1”。该表是utf8mb4编码的,具有一般的ci排序规则(所以在我的数据库中,这两个字符串是等价的。
但我将数据拉入一个r脚本,并使用dplyr join将其匹配到不同的表/Dataframe。在r中: "Anaïs" == "Anais"
产生“假”。
另外,mysql是不区分大小写的,但是在r(dbi??)中,连接是区分大小写的(在我的原始数据中有一大堆输入错误,其中的内容意外地没有大写,例如depaul和depaul。)
解决此问题的最佳方法是什么?
谢谢。
1条答案
按热度按时间dddzy1tm1#
从
stringi
stri_trans_general
将拉丁文转换为ascii对于上半部分,使用
toupper