读取pyspark中带有头的.tsv文件并将其存储在sparkDataframe中的最佳方法是什么。我正在尝试使用“spark.read.options”和“spark.read.csv”命令,但是运气不好。谢谢。敬你,Git
gwbalxhn1#
如果有如下可用的头文件,则可以直接读取tsv文件而不提供外部模式:
df = spark.read.csv(path, sep=r'\t', header=True).select('col1','col2')
由于spark是延迟计算的,所以它将只读取选定的列。希望有帮助。
1条答案
按热度按时间gwbalxhn1#
如果有如下可用的头文件,则可以直接读取tsv文件而不提供外部模式:
由于spark是延迟计算的,所以它将只读取选定的列。希望有帮助。