什么是最好的方法来填补缺失的数据使用Pandas。我有一个名单的游客在那里的出口时间或入口时间是失踪。
visitor entry exit
A 16/02/2016 08:46 16/02/2016 09:01
A 16/02/2016 09:20 16/02/2016 17:24
A 17/02/2016 09:12 17/02/2016 09:42
A 17/02/2016 09:55 NaT
A 17/02/2016 12:42 17/02/2016 12:56
A 17/02/2016 13:02 17/02/2016 17:32
A 17/02/2016 17:44 17/02/2016 18:24
A 18/02/2016 07:59 18/02/2016 16:40
A 18/02/2016 16:53 NaT
A NaT 19/02/2016 09:11
A 19/02/2016 09:27 19/02/2016 11:26
A 19/02/2016 12:28 19/02/2016 17:12
A 20/02/2016 08:44 20/02/2016 08:58
A 20/02/2016 09:16 20/02/2016 17:21
2条答案
按热度按时间u4vypkhs1#
您可以使用
DataFrame.ffill
+DataFrame.bfill
来完成相同的进入/退出时间:DataFrame.notna
+DataFrame.all
,用于执行boolean indexing
,用于过滤具有NaT值的ros,以计算差值的平均值x一个一个一个一个x一个一个二个x
rsl1atfo2#
我最好的办法是采取以下几个步骤:
1.创建一个新列,表示访问者停留的总持续时间
您可以参考this question了解如何查找2个DateTime之间的差异。
2.求新列的平均值
3.使用该平均值填充入口列或出口列中的缺失数据
注意,您需要设置inplace=True来修改现有的DataFrame。