我正在尝试连接两个数据集,但它们不相同或具有相同的标准。
目前我有下面的数据集,其中包含了基于月份和年份的火灾数量,但月份是标题的一部分,年份是一列。
小时
我想将此数据作为另一个数据集的目标data_mediao列添加到一个新列中(假设称为nr_total_queimadas)。
小时
日期格式是YYYY-MM-DD,但在这里日期并不重要。
我试着对这个案子做一个循环,但我认为我做错了什么,我不知道该如何处理这个案子。
下面是一个示例,说明我希望输出与两个数据集的连接:
小时
我举了一个例子,一些日期重复(应该发生),因此包含火灾次数的数据集中的数字也应该重复。
2条答案
按热度按时间pu82cl6c1#
首先,我假设第一个 Dataframe 在变量
a
中,第二个 Dataframe 位于变量m1n 1o1p。为了简化查找,我们将
a
的索引设置为year:然后,我们取 Dataframe
b
中data_medicao
的年份:为了从 Dataframe
b
中获取月份名称,我们使用strftime。然后,我们需要将月份名称改为小写,以便与a
中的列名匹配。为此,我们使用.str.lower()
:然后使用
lookup
,我们可以使用索引years
和month_name_lowercase
列出 Dataframea
中的所有值:最后,将新值添加到
b
中的新列中:所以完整的代码如下:
vuktfyat2#
假设年与月的数据如下。将月份名称转换为数字:
假设以下数据用于日期事务。从日期提取年份和月份:
加入日期:
计算逐行月份总和: