我正在尝试创建测试Dataframe,其中一列为int,另一列为string类型。输出如下。我想我们可以用
data = spark.range(1, 5)
output = dataset.withColumnRenamed('id','myid')
我们如何处理那个字符串列?非常感谢你的帮助!
预期产量:
id. ordernum
1 0032
2 0033
3 0034
4 0035
5 0036
2条答案
按热度按时间xeufq47z1#
您可以从列表列表创建sparkDataframe。举个例子:
如果你喜欢Spark范围,你可以使用
format_string
:n3ipq98p2#
你可以用
lpad
要创建的函数ordernum
列自id + 31
列左填充0以获得一个包含4位数字的字符串编号: