**关闭。**这个问题是not about programming or software development。目前不接受答复。
这个问题似乎不是关于a specific programming problem, a software algorithm, or software tools primarily used by programmers的。如果你认为这个问题与another Stack Exchange site的主题有关,你可以留下评论,解释在哪里可以回答这个问题。
4天前关闭。
Improve this question
如果我有一个包含许多列的文件,数据都是数字,我如何知道特定列是分类数据还是定量数据?。这类问题是否有研究领域?如果不是,有哪些启发式方法可以用来确定?
我能想到的一些启发式方法:
可能是分类数据
- 对唯一值进行汇总,如果它<
some_threshold
,则有更高的机会成为分类数据。 - 如果数据高度集中(低标准)
- 如果唯一值是高度连续的,并且从1开始
- 如果列中的所有值都具有固定长度(可以是ID/日期)
- 如果它在Benford's Law处具有非常小p值
- 如果它在结果列的卡方检验中具有非常小的p值
可能是定量数据
- 如果列有浮点数
- 如果列具有稀疏值
- 如果列具有负值
其他
- 也许定量数据更有可能接近定量数据(反之亦然)
我使用R,但问题不需要是R特定的。
2条答案
按热度按时间waxmsbnn1#
这假设有人正确地编码了数据。
也许你是在暗示数据没有被正确编码或标记,它都是以数字形式输入的,其中一些确实是分类的。在这种情况下,我不知道人们如何能肯定地说。分类数据可以有小数位,并且可以是负数。
在这种情况下,我会问自己的问题是,我如何处理数据有什么不同?
如果你对第二种情况感兴趣,也许你应该在Stack Exchange上提出你的问题。
以下是记录信息的方法:
编辑
下面是一种不使用
for-loop
记录每列class
的方法:xuo3flqw2#
以下是使用大多数建议的R函数的第一个切割:
样本数据集:mtcars:
潜在因素可能是:
Cyl和Gear被标记为因子。碳水化合物具有6个独特值或6/32 = 18%独特比例分数,高于由独特. p设定的10%阈值。
这些参数将对样本大小敏感-例如,50个唯一的州代码代表了具有数百个地址的数据集中总值的很大一部分,但州的数量不会随着大小而增长,因此随着数据集的增长,唯一值在总案例中的比例自然会变小。这些演示数据集是敏感的。
如果您希望将二进制变量标记为因子,则可以将参数“B.to.f”设置为TRUE:在这个例子中是vs和am。