如何避免在spark/scalaxx的聚合中使用“sum(< column>)”这样的列名?

ftf50wuq  于 2021-05-16  发布在  Spark
关注(0)|答案(1)|浏览(383)

聚合

df.groupBy($"whatever").sum("A","B","C")

生成一个dataframe,列名为“sum(a)sum(B)sum(C)`”。通常,名称a、b和c已经是最终聚合的正确名称。有没有办法避免这样做:

df.groupBy($"whatever").sum($"A".as("A"), $"B".as("B"), $"C".as("C"))
tkclm6bt

tkclm6bt1#

不,没有。
您需要使用别名via。正如您所说。
当然,您可以稍后重命名这些列。如何在最后一个点后对列名进行子串?在这里提供很好的指导,在col name上使用replaceall。

相关问题