我正在尝试训练一个机器学习模型来预测尼泊尔每个地区的农作物产量。输入特征将是各种天气相关数据,诸如温度、风速等。并且基于这些数据来预测作物产量。为了训练模型,我找到了以下数据:
- https://github.com/Ashutosh652/csv_files/blob/main/NepalAgriStats_Cereal.csv。这包含了尼泊尔从1979/80财政年度到2013/14财政年度的地区作物产量数据。请注意,尼泊尔的财政年度从7月16日开始,到下一年的7月15日结束。因此,1979/80财政年度的作物产量是指1979年7月16日至1980年7月15日的作物产量。
- https://raw.githubusercontent.com/Ashutosh652/csv_files/main/climate_data.csv.这包含了尼泊尔每个地区从1981年1月1日到2019年12月31日的每日气候数据。此数据不是会计年度,而是常规年度。我无法将完整的数据集上传到github,因为它太大了。
我最终想要的是一个数据集,我可以用它来训练一个机器学习模型,以气候数据为特征,以作物产量为输出。数据集应包含以下列:
年份、地区、温度、最大温度、最小温度...其他气候数据...产量。
在最后一个数据集中,我想要每个地区每年的气候数据和产量。
为了实现这一点,我需要将作物数据从财政年度转换为正常年度,或者将气候数据从正常年度转换为财政年度。
我假设不可能将作物数据从财政年度转换为正常年度,因为我只有作物产量的年度数据,为了将其转换为正常年度数据,我们需要将财政年度的作物产量区分为7月16日之前的产量和7月15日之后的产量。如果我错了,请纠正我。
因此,下一个选择是将每日气候数据转换为财政年度数据。如何将每日气候数据转换为财政年度数据。请注意,每日气候数据中有不同类型的特征需要转换为财政年度数据。例如,有两个特征,即一天的平均温度和一天的最高温度。要把每天的平均温度转换成年平均温度,我们必须求出所有日平均温度。但是要将日最高气温转换为年最高气温,我们必须找到一年中所有日最高气温的最大值。再说一次,我可能错了。请随时纠正我。
所以,现在,我想知道的是,我如何将每日气候数据转换为财政年度气候数据?
此外,如果你认为这种方法或数据集不适合这种项目,那么也请告诉我,因为这是我第一次自己做机器学习项目。
此外,我很可能不会使用气候数据集中的所有特征来训练机器学习模型。但是如果可能的话,转换所有的气候数据仍然是有益的,这样我就可以在这个项目的后期阶段试验不同的功能。
1条答案
按热度按时间omqzjyyz1#
计算每个财政年度(7月16日至次年7月15日)和地区每列的最小值、最大值和平均值。* (然后您可以选择要使用的列。)*
加载产量数据并将其格式化以匹配气候数据:
上面的代码使用了以下函数:
最后,将气候数据与产量数据结合起来:
你可能并不需要所有的气候变量,所以只要放弃那些你不想要的。
你也可能只关心***一个特定的产品***。
例如,如果您只对***小麦***感兴趣,您可以通过以下方式删除其他***产品***:
或者你可能只关心***所有产品的总和***。如果是,请在与***气候数据***合并之前添加此行
并删除/注解掉以下内容: