在使用PySpark读取CSV时，是否可以只覆盖一种列类型？

uqzxnwby 于 2023-04-05 发布在 Spark

关注(0)|答案(2)|浏览(127)

我尝试使用PySpark读取一个包含许多列的CSV文件。inferschema选项在推断大多数列的数据类型方面非常出色。如果我只想覆盖其中一个被错误推断的列类型，最好的方法是什么？
我有这段代码，但它使PySpark只导入模式中指定的一个列，这不是我想要的。

schema = StructType() \ 
    .add("column_one_of_many", StringType(), True) 

spark.read.format('com.databricks.spark.csv') \ 
  .option('delimited',',') \ 
  .option('header','true') \ 
  .option('inferschema', 'true') \ 
  .schema(self.schema) \ 
  .load('dbfs:/FileStore/some.csv')

我的要求有可能吗？
谢谢你的时间和指导：）

pyspark

来源：https://stackoverflow.com/questions/68947752/is-it-possible-to-override-just-one-column-type-when-using-pyspark-to-read-in-a

2条答案

按热度按时间

wydwbb8l1#

更简单的方法是使用.withColumn并将column_one_of_many转换为字符串。

一米二米一x

from pyspark.sql.types import *

spark.read.format('com.databricks.spark.csv') \ 
  .option('delimited',',') \ 
  .option('header','true') \ 
  .option('inferschema', 'true') \ 
  .load('dbfs:/FileStore/some.csv')\
  .withColumn("column_one_of_many",col("column_one_of_many").cast("string"))

另一种方法是定义schema中的所有列，然后排除inferschema，只需使用**.schema**选项来读取csv文件。

赞(0）回复(0）举报 2023-04-05

wrrgggsh2#

或者你可以先在inferSchema打开的情况下读取它，修改schema，然后再次加载csv：

from pyspark.sql.types import *

df = spark.read.format('com.databricks.spark.csv') \ 
  .option('delimited',',') \ 
  .option('header','true') \ 
  .option('inferschema', 'true') \ 
  .load('dbfs:/FileStore/some.csv')

例如，让我们将第一列（索引为0）从IntegerType更改为StringType：

df.schema.fields[0].dataType = StringType
schema = df.schema

然后，使用修改后的schema重新加载csv：

df = spark.read.format('com.databricks.spark.csv') \ 
  .option('delimited',',') \ 
  .option('header','true') \ 
  .option('schema', schema) \ 
  .load('dbfs:/FileStore/some.csv')

当然，您可以通过选择正确的索引来修改任何列的数据类型。这种方法比强制转换更好，因为您可能会因原始类型推断而丢失信息（例如，以零开头的邮政编码）。

赞(0）回复(0）举报 2023-04-05

我来回答

在使用PySpark读取CSV时，是否可以只覆盖一种列类型？

2条答案

相关问题

热门标签

最新问答