尝试在PySpark中读取CSV文件,但它也在阅读文本文件

wrrgggsh  于 2023-03-21  发布在  Spark
关注(0)|答案(1)|浏览(131)

我有一个包含.txt和.csv文件的文件夹(列名完全相同)
然而,当我尝试在PySpark中只读取CSV文件并尝试下面的代码时,它同时阅读并附加了文本和csv文件

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("CSV Reader").getOrCreate()

csv_path = "path/to/csv/folder"

df = spark.read \
.format("csv") \
.option("header", "true") \
.option("inferSchema", "true") \
.load(csv_path)
5gfr0r5j

5gfr0r5j1#

您可以使用pathGlobFilter作为选项,并定义只读.csv文件的模式

spark.read.format("csv").option('pathGlobFilter', '*.csv').load(csv_path)

希望这是要帮助我已经找到了这个选项在这里:https://dbmstutorials.com/pyspark/spark-read-write-dataframe-options.html

相关问题