阅读csv后将架构应用于pyspark架构

yftpprvb  于 2023-10-15  发布在  Spark
关注(0)|答案(1)|浏览(91)

我目前正在研究一个数据管道,它执行读取、转换和写入的简单任务。当我阅读一个csv文件时,我应用了一个模式,例如:

StructField("Call Number",IntegerType(),True),
      StructField("Incident Number",IntegerType(),True),
      StructField("Entry DtTm",DateType() ,True)])

这完全没问题转换涉及删除一些id,在本例中是删除第二列,并最终写入parquet。有什么方法可以应用模式吗

StructField("Call Number",IntegerType(),True),
     StructField("Entry DtTm",DateType() ,True)])

然后写入 parquet 桌?

i7uaboj4

i7uaboj41#

我认为唯一的方法是read的csv数据使用schema,然后drop列。

df = spark.read.option("schema",schema).csv("")
df.drop('Incident Number').write.parquet

相关问题