这是我的数据集示例
> head(dataset, 20)
nquest nord tpens
1 173 1 1800
2 633 1 300
3 633 1 600
4 923 1 500
5 2886 1 1211
6 2886 2 2100
7 5416 1 700
8 7886 1 1800
9 7886 1 200
10 20297 1 1200
11 20711 2 2000
12 22169 1 600
13 22169 1 280
14 22173 2 1000
15 22276 1 1200
16 22286 1 850
17 22286 2 650
18 22657 1 1400
19 22657 2 1500
20 23490 1 1400
变量为:
nquest
=是个人所属的家庭的代码nord
=个人在家庭中的地位(1=丈夫,2=妻子,3=儿子,等等)。tpens
=是他们每个人的工资
我需要确定对于一个特定的个体,变量tpens
是否有多个值。要识别一个人,最基本的是同时考虑nquest
和nord
,因为它们在不同的行上必须相同。
我如何计算我有多少个观测值涉及同一个个体?
我试过了
dim(dataset[duplicated(dataset$nquest & dataset$nord),])[1]
sum(duplicated(dataset$nquest & dataset$nord))
但我很确定这是错误的代码,因为他们对所有相等的nquest
求和,对nord
做同样的操作,实际上,当两者同时具有相同的值时,我需要求和
4条答案
按热度按时间xurqigkl1#
首先按标识观测的变量分组,然后过滤出现多次的组合:
创建于2023年3月10日,使用reprex v2.0.2
一个更专业的选项是使用包管理员:
fhg3lkii2#
如果您对所有重复记录感兴趣,则可以使用
如果要删除以上所有内容
更新
如果你想保留第一个副本
如果您想保留最后一个副本
zvokhttg3#
更新:如果我们希望保留唯一值,则:
如果要查找列1和列2中的重复项,则:
输出:
zpjtge224#