我有三个数据框,一个是客户的名字,第二个是女性的名字,第三个是男性的名字。如果一个客户的名字出现在男性名字df中,那么它的性别就被指定为男性,女性也是如此。但是如果一个名字同时出现在男性和女性数据框中,那么我必须使用计数来指定性别。
例如:
male_names <- data.frame(
Name = c("Ajit","Binod","Chinmay","Dhiraj","Eshan","Krishna"),
count = c(4,2,3,4,2,7)
)
female_names <- data.frame(
Name = c("Amita","Binita","Cherry","Deepika","Krishna"),
count = c(4,1,2,3,2)
)
customer_names <- data.frame(
Name = c("Ajit","Binita","Dhiraj","Krishna")
)
我该怎么做呢?
3条答案
按热度按时间osh3o9ms1#
这是我对
dplyr
的处理方法:结果:
lztngnrs2#
我建议您先将您的女性和男性姓名合并,然后求和,这样您就可以知道要为每个姓名指定什么性别。然后将您的客户加入到该表中。我在这里使用data.table,这只是我的喜好。
kknvjkwl3#
如果你只想要性别间数量最多的性别。
[Edit:意识到这将在数量相等的情况下保持两性,但问题是不清楚在这种情况下会发生什么]
但我会仔细考虑你要用这些数据做什么,以及这是否是猜测性别的合适方法。