我目前正在研究一个数据管道,它执行读取、转换和写入的简单任务。当我阅读一个csv文件时,我应用了一个模式,例如:
StructField("Call Number",IntegerType(),True),
StructField("Incident Number",IntegerType(),True),
StructField("Entry DtTm",DateType() ,True)])
这完全没问题转换涉及删除一些id,在本例中是删除第二列,并最终写入parquet。有什么方法可以应用模式吗
StructField("Call Number",IntegerType(),True),
StructField("Entry DtTm",DateType() ,True)])
然后写入 parquet 桌?
1条答案
按热度按时间i7uaboj41#
我认为唯一的方法是
read
的csv数据使用schema
,然后drop
列。