Apache Spark 如何降低数据框列名的大小写，但不降低其值的大小写？

jckbn6z7 于 2023-02-09 发布在 Apache

关注(0)|答案(5)|浏览(211)

如何使用RAW Spark SQL和Dataframe方法降低数据框列名的大小写，而不是其值的大小写？
输入数据框（假设我有100个大写的列）

NAME | COUNTRY | SRC        | CITY       | DEBIT
---------------------------------------------
"foo"| "NZ"    | salary     | "Auckland" | 15.0
"bar"| "Aus"   | investment | "Melbourne"| 12.5

目标 Dataframe

name | country | src        | city       | debit
------------------------------------------------
"foo"| "NZ"    | salary     | "Auckland" | 15.0
"bar"| "Aus"   | investment | "Melbourne"| 12.5

apache-spark

来源：https://stackoverflow.com/questions/48675036/how-to-lower-the-case-of-column-names-of-a-data-frame-but-not-its-values

5条答案

按热度按时间

iq0todco1#

如果你使用的是 scala，你可以简单地执行以下操作

import org.apache.spark.sql.functions._
df.select(df.columns.map(x => col(x).as(x.toLowerCase)): _*).show(false)

如果您使用的是 pyspark，则只需执行以下操作即可

from pyspark.sql import functions as F
df.select([F.col(x).alias(x.lower()) for x in df.columns]).show()

赞(0）回复(0）举报 2023-02-09

ifmq2ha22#

Java 8解决方案将列名转换为小写。

import static org.apache.spark.sql.functions.col;
import org.apache.spark.sql.Column;

df.select(Arrays.asList(df.columns()).stream().map(x -> col(x).as(x.toLowerCase())).toArray(size -> new Column[size])).show(false);

赞(0）回复(0）举报 2023-02-09

vtwuwzda3#

不如这样：
一些虚假数据：

scala> val df = spark.sql("select 'A' as AA, 'B' as BB")
df: org.apache.spark.sql.DataFrame = [AA: string, BB: string]

scala> df.show()
+---+---+
| AA| BB|
+---+---+
|  A|  B|
+---+---+

现在重新选择所有具有新名称的列，这只是它们的小写版本：

scala> val cols = df.columns.map(c => s"$c as ${c.toLowerCase}")
cols: Array[String] = Array(AA as aa, BB as bb)

scala> val lowerDf = df.selectExpr(cols:_*)
lowerDf: org.apache.spark.sql.DataFrame = [aa: string, bb: string]

scala> lowerDf.show()
+---+---+
| aa| bb|
+---+---+
|  A|  B|
+---+---+

- 注：**我使用的是Scala，如果你使用的是PySpark，并且不熟悉Scala语法，那么df.columns.map(c => s"$c as ${c.toLowerCase}")在Python中就是map(lambda c: c.lower(), df.columns)，cols:_*就是*cols，请注意我没有运行这个翻译。

赞(0）回复(0）举报 2023-02-09

db2dz4w84#

适用于Java 8

Dataset<Row> input;
for (StructField field : input.schema().fields()) {
   String newName = field.name().toLowerCase(Locale.ROOT);
   input = input.withColumnRenamed(field.name(), newName);
   if (field.dataType() instanceof StructType) {
       StructType newStructType = (StructType) StructType.fromJson(field.dataType().json().toLowerCase(Locale.ROOT));
       input = input.withColumn(newName, col(newName).cast(newStructType));
   }
}

赞(0）回复(0）举报 2023-02-09

xmq68pz95#

您可以在python中为spark Dataframe 使用df.withColumnRenamed（col_name，col_name.lower（））

赞(0）回复(0）举报 2023-02-09