我希望确定一组列中的值何时是冗余的,将其记录在新的列multi?
中,其中0表示只看到一个值,1表示看到多个值。我希望代码忽略它,并相应地评估其他值的冗余性。当值"Unspecified"
是列集中唯一的值时,我希望列multi?
记录"Unspecified"
。
值得注意的是,这四列只是具有更多列的更大数据库的一部分。
为了说明我的意思,我提供了下面的输入和输出示例:
headbleed_type_dx1 headbleed_type_dx2 headbleed_type_dx3 headbleed_type_dx4
1 Intracerebral Intracerebral Intracerebral <NA>
2 Intracerebral Subarachnoid <NA> Subdural
3 Unspecified Intracerebral Subdural Intracerebral
4 Unspecified <NA> <NA> <NA>
5 <NA> <NA> <NA> <NA>
如果Multi?
的行为1,那么我还想记录新列Number
中唯一值的数量
Multi? Number
1 0 1
2 1 3
3 1 2
4 Unspecified 1
5 NA NA
1条答案
按热度按时间5uzkadbs1#
这真的很麻烦,我建议不要在一列中混合数字和字符。
这将返回
数据