我有2个数据集:
- 1982-01年至2022-08年每月降雨量(毫米)
- 1982-01至2022-08年每年每月的雨日数目。
month no_of_rainy_days
0 1982-01 10
1 1982-02 5
2 1982-03 11
3 1982-04 14
4 1982-05 10
month total_rainfall
0 1982-01 107.1
1 1982-02 27.8
2 1982-03 160.8
3 1982-04 157.0
4 1982-05 102.2
问1:作为确保数据完整性的一部分,我如何确保日期连续运行?即1982-01,下一个是1982-02,而不是跳到1982-03?
我不确定如何进行检查,并在网上做了搜索。假设年份和月份正在运行是常见的做法吗?
1条答案
按热度按时间c2e8gylq1#
首先,把年和月分开。
然后,您可以按年对 Dataframe 进行分组,并计算每年的观测数(计算每年的行数)。
假设您有少于12个观测值的年份,它们将显示如下:
由于缺乏细节和样本数据,我对您的数据做了一些假设:
1.每个数据集在一年中的任何月份都不超过一行(即,每年最多12行/观察结果)。
1.每个 Dataframe 每行包含一个观察,如示例所示(因此,您可以在合并 Dataframe 之前对每个 Dataframe 执行此操作)。因此,按年-月计算行数是计算任何给定月份观察数的准确方法。
1.数据的排序顺序是无关紧要的(如果需要,您可以稍后按年-月排序)。