一个列包含性别信息,比如'male','female'和'total',在R中是否仍然是整齐的

d8tt03nd  于 2023-06-19  发布在  其他
关注(0)|答案(1)|浏览(90)

我试图使R中的数据集整洁。它包含许多不同的变量,包括按年分列的人口信息,例如:出生率、死亡率等等。大多数数据是总人口的数据,没有按性别分列。然而,每年总人口的数值按性别分开,即:男性人口和女性人口。我在想性应该是一个独立的专栏,人口应该是一个专栏。但接下来我就剩下其他的价值观了,它们不能被编码为男性或女性。所以我的性专栏可以有以下水平:男的女的和总的?或者,如果我将男性和女性人口列分开,它仍然是一个整洁的数据集吗?如果是,我是否也有一个总人口列?
有很多缺失的数据,所以我并不特别关心通过添加sex列而创建的缺失数据行。我只需要确保数据符合“整洁”的格式。
如上所述,我已经成功地创建了一个数据集,但我关心哪一个可以被认为是整洁的。我不是在寻求关于代码本身的建议。

z31licg0

z31licg01#

因此,在您建议的数据中,每年有3行:男性、女性和总数,但男性和女性行的所有值(人口除外)都是NA-对吗?

你的求婚,性爱时间更长

| 年|性别|人口|国内生产总值|欧洲社会委员会|
| - -----|- -----|- -----|- -----|- -----|
| 二千年|M型|三百| * 不适用 | 没有 *|
| 二千年|F型|二百三十| * 没有 | 不适用 *|
| 二千年|共计|五百三十|三四五二|四百五十四|
对比原始宽表数据
| 年|男性流行音乐|女流行音乐|总爆裂|国内生产总值|欧洲社会委员会|
| - -----|- -----|- -----|- -----|- -----|- -----|
| 二千年|三百|二百三十|五百三十|三四五二|四百五十四|
如果我理解正确的话,这听起来像是个坏主意。我认为您对整理数据的“规则”有点过于热心,实际上使事情变得更加混乱。在Hadley威克姆的论文中,整洁数据的标准是:
tidy data中:
1.每一列都是变量。
1.每一行都是观察。
1.每个单元格都是一个值。
在宽格式数据中,每一行都是一个观察结果(年份的数据),虽然从技术上讲,按性别划分的人口有3列并不是一个大问题,因为它可以将您从混乱的建议设置中节省下来。
想想你将如何使用这些数据--从不同的格式中会得到什么?它更大,更不清晰,您必须处理NA并进行额外的操作来分析它。
如果你真的想让你的数据整洁,并避免重复的性别特定人群列(如果有不止一组性别特定变量,你可能会这样做),你应该把 * 整个 * 表透视成长格式,而不仅仅是它的一部分。
完整长格式数据
| 年|性别|状态|价值|
| - -----|- -----|- -----|- -----|
| 二千年|M型|流行|三百|
| 二千年|F型|流行|二百三十|
| 二千年|共计|流行|五百三十|
| 二千年|共计|国内生产总值|三四五二|
| 二千年|共计|欧洲社会委员会|四百五十四|

相关问题