pyspark Databricks:使用. snappy.parquet扩展名阅读数据

tct7dpnv  于 2023-05-21  发布在  Spark
关注(0)|答案(2)|浏览(112)

我有一张有.漂亮. parquet 的table.

data= 'part-001-36b4-7ea3-4165-8742-2f32d8643d-c000.snappy.parquet'

我想读这篇文章,并尝试了以下内容:

table = spark.read.load(data, format='delta')

当我尝试使用上面的syntaxy时,我得到了以下错误。AnalysisException: A partition path fragment should be the form likepart1=foo/part2=bar. The partition path: part-001-36b4-7ea3-4165-8742-2f32d8643d-c000.snappy.parquet .

table = spark.read.parquet(data)

当我尝试上面的时候,我得到了这个错误:AnalysisException: Incompatible format detected

8yparm6h

8yparm6h1#

df = spark.read.parquet('/path/where/file/is/')

可能你的Parquet是由许多部件生成的,所以你需要读取所有的路径,Parquet部件是在哪里生成的

taor4pac

taor4pac2#

如果您不介意使用pandas来完成这个特定的任务,我发现在过去阅读像这样的snappy parquet文件是成功的

import pandas as pd
df = pd.read_parquet(data)

相关问题