我有一个包含6.2M条记录的数据集。当我通过分组分割它时,它丢失了大约1.2M条记录。这是数据集的一部分:
VendorID | tpep_pickup_datetime | tpep_dropoff_datetime | passenger_count |
1 | 2020-01-01 00:28:15 | 2020-01-01 00:33:03 | 1.0
1 | 2020-01-01 00:35:39 | 2020-01-01 00:43:04 | 1.0
.. |.................... | ................... | ...
1 | 2020-01-31 00:47:41 | 2020-01-31 00:53:52 | 1.0
1 | 2020-01-31 00:55:23 | 2020-01-31 01:00:14 | 1.0
2 | 2020-01-31 00:01:58 | 2020-01-31 00:04:16 | 1.0
我需要在tpep_dropoff_datetime
列中按天拆分它。这是我用来做这件事的代码,但正如我之前提到的,它不能正常工作。
for date, g in df.groupby(pd.to_datetime(df['tpep_dropoff_datetime']).dt.normalize().astype(str)):
g.to_csv(f'{date}.csv', index=False)
有什么想法,如何分割 Dataframe ?
1条答案
按热度按时间liwlm1x91#
你可以试试这个,虽然我相信这可能不是最好的方法(Pandas可能有更好的方法来做这件事)。
输出为文件,控制台中显示以下文件:
有了这个至少我会确保我得到的日期正确,但可能不是最好的效率