pyspark 自定义分隔符csv阅读器spark

xmjla07d 于 2022-11-21 发布在 Spark

关注(0)|答案(3)|浏览(179)

我想用Apache Spark读入一个具有以下结构的文件。

628344092\t20070220\t200702\t2007\t2007.1370

分隔符是\t。我如何在使用spark.read.csv（）时实现这一点？
这个csv文件太大了，不能用panda，因为要花很长时间才能读到这个文件。有没有类似的方法

pandas.read_csv(file, sep = '\t')

多谢了！

3条答案

使用spark.read.option("delimiter", "\t").csv(file)或sep代替delimiter。
如果它是\t，而不是制表符特殊字符，则使用两个\：spark.read.option("delimiter", "\\t").csv(file)

这对我来说很有效，而且（对我来说）更清楚：正如你提到的，在Pandas身上你会做：

df_pandas = pandas.read_csv(file_path, sep = '\t')

在Spark中：

df_spark = spark.read.csv(file_path, sep ='\t', header = True)

请注意，如果csv的第一行是列名，则应设置header = False，如下所示：

df_spark = spark.read.csv(file_path, sep ='\t', header = False)

您可以更改分隔符（sep）以适合您的数据。

如果您使用的是**SparkSQL**，则可以使用以下语法和OPTION语法来指定delimiter。

CREATE TABLE sample_table
USING CSV
OPTIONS ('delimiter'='\t')
AS SELECT ...