我正在尝试做的是尝试检测数据集是否是时间序列?我想自动化这个过程。
假设我有以下数据集:
- 一月一日**
| 标题1|标题2|标题1|标题2|
| - ------|- ------|- ------|- ------|
| 2023年1月1日|三十四|十二|三十四|
| 二〇二三年二月一日|四十二|九十九|四十二|
| 2023年3月1日|四十二|九十九|四十二|
| 2023年4月1日|四十二|九十九|四十二|
- 一米一米一**
| 标题1|标题2|标题1|标题2|
| - ------|- ------|- ------|- ------|
| 2023年1月1日|三十四|十二|三十四|
| 2023年3月1日|四十二|九十九|四十二|
| 2023年4月1日|四十二|九十九|四十二|
| 2023年7月1日|四十二|九十九|四十二|
- 一米二米一x**
| 标题1|标题2|标题1|标题2|
| - ------|- ------|- ------|- ------|
| 二〇二三年一月|三十四|十二|三十四|
| 二○二三年二月|四十二|九十九|四十二|
| 二○二三年三月|四十二|九十九|四十二|
- 一米三米一x**
| 标题1|标题2|标题1|标题2|
| - ------|- ------|- ------|- ------|
| 小行星2020|三十四|十二|三十四|
| 小行星2021|四十二|九十九|四十二|
| 小行星2022|四十二|九十九|四十二|df1
具有均匀间隔的时间列,df2
具有时间列但不均匀间隔,df3
和df4
具有格式不为datetime
的时间列
在上面的df
中,哪个是时间序列数据,哪个不是?将数据集视为时间序列的标准究竟是什么?
- 谢谢**
2条答案
按热度按时间jucafojl1#
如@GalodoLeste所示, Dataframe 是时间序列:
但第三个有频率,第一个没有
vawmfj5a2#
让我们假设这个例子:
您可以尝试使用panda执行的默认自动检测来转换
to_datetime
(这非常高效!)。输出:
还可以添加最小匹配行数作为阈值,以确定列是否与日期时间类似: