我有下面的pyspark Dataframe 。两者都是字符串列。
time additional_time_in_mins
11:00:00 60
13:00:00 60
14:00:00 30
我必须将附加时间列中的分钟数添加到实际时间中,并在pyspark中创建如下输出。
预期产出:
new_time
12:00:00
14:00:00
14:30:00
在pyspark有办法做到这一点吗
我有下面的pyspark Dataframe 。两者都是字符串列。
time additional_time_in_mins
11:00:00 60
13:00:00 60
14:00:00 30
我必须将附加时间列中的分钟数添加到实际时间中,并在pyspark中创建如下输出。
预期产出:
new_time
12:00:00
14:00:00
14:30:00
在pyspark有办法做到这一点吗
3条答案
按热度按时间kgsdhlau1#
使用UDF执行此操作的其他方法:
求和时间的自定义逻辑
使用UDF获得最终输出:
js4nwp542#
下面的pyspark代码对我有效:
nfg76nw03#
一个简单的选项是使用
unix_timestamp
函数将time
列转换为 bigint(以秒为单位),加上分钟(minutes * 60s),然后将结果转换回 timestamp。最后,转换为小时格式。