我有一个包含.txt和.csv文件的文件夹(列名完全相同)
然而,当我尝试在PySpark中只读取CSV文件并尝试下面的代码时,它同时阅读并附加了文本和csv文件
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("CSV Reader").getOrCreate()
csv_path = "path/to/csv/folder"
df = spark.read \
.format("csv") \
.option("header", "true") \
.option("inferSchema", "true") \
.load(csv_path)
1条答案
按热度按时间5gfr0r5j1#
您可以使用
pathGlobFilter
作为选项,并定义只读.csv文件的模式希望这是要帮助我已经找到了这个选项在这里:https://dbmstutorials.com/pyspark/spark-read-write-dataframe-options.html