阅读csv后将架构应用于pyspark架构

yftpprvb 于 2023-10-15 发布在 Spark

关注(0)|答案(1)|浏览(91)

我目前正在研究一个数据管道，它执行读取、转换和写入的简单任务。当我阅读一个csv文件时，我应用了一个模式，例如：

StructField("Call Number",IntegerType(),True),
      StructField("Incident Number",IntegerType(),True),
      StructField("Entry DtTm",DateType() ,True)])

这完全没问题转换涉及删除一些id，在本例中是删除第二列，并最终写入parquet。有什么方法可以应用模式吗

StructField("Call Number",IntegerType(),True),
     StructField("Entry DtTm",DateType() ,True)])

然后写入 parquet 桌？

pyspark

来源：https://stackoverflow.com/questions/76901489/apply-schema-to-pyspark-dataframe-after-reading-csv

1条答案

按热度按时间

i7uaboj41#

我认为唯一的方法是read的csv数据使用schema，然后drop列。

df = spark.read.option("schema",schema).csv("")
df.drop('Incident Number').write.parquet

赞(0）回复(0）举报 2023-10-15

我来回答

阅读csv后将架构应用于pyspark架构

1条答案

相关问题

热门标签

最新问答