尝试在PySpark中读取CSV文件，但它也在阅读文本文件

wrrgggsh 于 2023-03-21 发布在 Spark

关注(0)|答案(1)|浏览(132)

我有一个包含.txt和.csv文件的文件夹（列名完全相同）
然而，当我尝试在PySpark中只读取CSV文件并尝试下面的代码时，它同时阅读并附加了文本和csv文件

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("CSV Reader").getOrCreate()

csv_path = "path/to/csv/folder"

df = spark.read \
.format("csv") \
.option("header", "true") \
.option("inferSchema", "true") \
.load(csv_path)

csv

来源：https://stackoverflow.com/questions/75787347/trying-to-read-csv-files-in-pyspark-but-it-is-also-reading-text-files

1条答案

按热度按时间

5gfr0r5j1#

您可以使用pathGlobFilter作为选项，并定义只读.csv文件的模式

spark.read.format("csv").option('pathGlobFilter', '*.csv').load(csv_path)

希望这是要帮助我已经找到了这个选项在这里：https://dbmstutorials.com/pyspark/spark-read-write-dataframe-options.html

赞(0）回复(0）举报 2023-03-21

我来回答

尝试在PySpark中读取CSV文件，但它也在阅读文本文件

1条答案

相关问题

热门标签

最新问答