如何避免在spark/scalaxx的聚合中使用“sum(< column>)”这样的列名？

ftf50wuq 于 2021-05-16 发布在 Spark

关注(0)|答案(1)|浏览(383)

聚合

df.groupBy($"whatever").sum("A","B","C")

生成一个dataframe，列名为“sum（a），sum（B）和sum（C）`”。通常，名称a、b和c已经是最终聚合的正确名称。有没有办法避免这样做：

df.groupBy($"whatever").sum($"A".as("A"), $"B".as("B"), $"C".as("C"))

1条答案

不，没有。
您需要使用别名via。正如您所说。
当然，您可以稍后重命名这些列。如何在最后一个点后对列名进行子串？在这里提供很好的指导，在col name上使用replaceall。