我想知道是否有人可以帮助或指出我在正确的方向。我相当新的编程,所以任何帮助表示感谢
我目前正在为我的一个项目做一些特征提取,并试图创建一些聚合器特征。
我试图创建的一个特殊功能只能考虑历史记录,而不包括实际记录的日期。到目前为止,我一直在使用groupby和cumcount,但我很难得到我想要的。请看下面
df['Cum Count'] = df.sort_values('Time').groupby(['ID']).cumcount()
| 时间|识别号|累计计数|预期结果|
| - ------|- ------|- ------|- ------|
| 2016年3月4日15:35|小行星1234567|无|无|
| 2016年5月4日14:40|小行星1234567|1个|1个|
| 2016年5月4日17:30|小行星1234567|第二章|1个|
| 2016年8月4日17:05|小行星1234567|三个|三个|
| 2016年8月4日18:10|小行星1234567|四个|三个|
| 2016年9月4日17:45|小行星1234567|五个|五个|
| 2016年4月15日17:25|小行星1234567|六个|六个|
| 2016年4月15日19:55|小行星1234567|七|六个|
| 2016年4月20日17:25|小行星1234567|八个|八个|
| 2016年4月20日19:25|小行星1234567|九|八个|
| 2016年4月22日18:10|小行星1234567|十个|十个|
| 2016年4月25日14时15分|小行星1234567|十一|十一|
| 2016年4月25日14时45分|小行星1234567|十二|十一|
| 2016年4月27日18:40|小行星1234567|十三|十三|
| 2016年4月28日18:05|小行星1234567|十四|十四|
| 2016年4月5日14时45分|小行星1234567|十五|十五|
| 2016年4月5日15:15|小行星1234567|十六|十五|
1条答案
按热度按时间krcsximq1#
试试看:
图纸:
如果只需要组号,可以使用
.ngroup()
:图纸: