R语言如何有效地去除多个数据集中的重复记录

4c8rllxm 于 2023-01-10 发布在其他

关注(0)|答案(1)|浏览(321)

我有5个不同的数据集，我想摆脱重复的每个数据集。
其中一种方法是在数据集上逐个运行唯一函数，但这是非常低效和耗时的，我尝试了下面的代码，但它没有去除重复。

加载数据集

daily_activites <- read_csv("dailyActivity_merged.csv")
daily_steps <- read_csv("dailySteps_merged.csv")
daily_intensities <- read_csv("dailyIntensities_merged.csv")
daily_calories <- read_csv("dailyCalories_merged.csv")
sleep_day <- read_csv("sleepDay_merged.csv")

包含所有数据集名称的变量

dataset_names <- c("daily_activities", "daily_steps", "daily_intensities", "daily_calories", "sleep_day")

删除重复项

for (i in 1:length(dataset_names)) {
  dataset_names[i] <- unique(dataset_names[i])
}

来源：https://stackoverflow.com/questions/75041711/how-to-get-rid-of-duplicate-records-from-several-datasets-efficiently

1条答案

按热度按时间

l7wslrjt1#

您可以使用mget(dataset_names)将所需的所有 Dataframe 放入一个列表中，通过lapply()将unique()应用于每个 Dataframe ，并通过list2env()将数据覆盖到工作区中。

list2env(lapply(mget(dataset_names), unique), .GlobalEnv)

赞(0）回复(0）举报 2023-01-10

我来回答

R语言如何有效地去除多个数据集中的重复记录

加载数据集

包含所有数据集名称的变量

删除重复项

1条答案

相关问题

热门标签

最新问答

R语言 如何有效地去除多个数据集中的重复记录

加载数据集

包含所有数据集名称的变量

删除重复项

1条答案

相关问题

热门标签

最新问答

R语言如何有效地去除多个数据集中的重复记录