pandas 在panda Dataframe 中将带时间和不带时间的字符串(混合格式)转换为datetime

amrnrhlw 于 2023-02-02 发布在其他

关注(0)|答案(1)|浏览(111)

使用astype函数将panda Dataframe 列从object转换为datetime时，根据字符串是否具有时间组件，行为会有所不同。转换列的正确方法是什么？

df = pd.DataFrame({'Date': ['12/07/2013 21:50:00','13/07/2013 00:30:00','15/07/2013','11/07/2013']})

df['Date'] = pd.to_datetime(df['Date'], format="%d/%m/%Y %H:%M:%S", exact=False, dayfirst=True, errors='ignore')

输出：

Date
0   12/07/2013 21:50:00
1   13/07/2013 00:30:00
2   15/07/2013
3   11/07/2013

但dtype仍为object。执行以下操作时：

df['Date'] = df['Date'].astype('datetime64')

它变为datetime dtype，但是第0和3行上的日和月未被正确解析。

Date
0   2013-12-07 21:50:00
1   2013-07-13 00:30:00
2   2013-07-15 00:00:00
3   2013-11-07 00:00:00

预期结果为：

Date
0   2013-07-12 21:50:00
1   2013-07-13 00:30:00
2   2013-07-15 00:00:00
3   2013-07-11 00:00:00

pandas

来源：https://stackoverflow.com/questions/56614558/convert-strings-with-and-without-time-mixed-format-to-datetime-in-a-pandas-dat

1条答案

按热度按时间

wfauudbj1#

如果我们看一下源代码，如果您传递format=和dayfirst=参数，dayfirst=将永远不会被读取，因为传递format=调用了C函数（np_datetime_strings.c），它不使用dayfirst=进行转换。另一方面，如果只传递dayfirst=，它将用于首先猜测格式，福尔斯再使用dateutil.parser.parse进行转换。因此，只使用其中一个。
在大多数情况下，

df['Date'] = pd.to_datetime(df['Date'])

完成任务。
在OP中的特定示例中，传递dayfirst=True就完成了任务。

df['Date'] = pd.to_datetime(df['Date'], dayfirst=True)

也就是说，传递format=会使转换速度提高25倍（更多信息请参见this post），因此，如果帧大于10k行，那么最好传递format=。现在，由于格式是混合的，一种方法是分两步执行转换（errors='coerce'参数会很有用）

转换带有时间组件的日期时间
用转换为不同格式的Series填充NaT值（“强制”行）。

df['Date'] = pd.to_datetime(df['Date'], format='%d/%m/%Y %H:%M:%S', errors='coerce')
df['Date'] = df['Date'].fillna(pd.to_datetime(df['Date'], format='%d/%m/%Y', errors='coerce'))

这种方法（执行或多次转换）可用于转换任何日期时间格式“古怪”的列。

赞(0）回复(0）举报 2023-02-02

我来回答

pandas 在panda Dataframe 中将带时间和不带时间的字符串(混合格式)转换为datetime

1条答案

相关问题

热门标签

最新问答