pyspark Databricks：使用. snappy.parquet扩展名阅读数据

tct7dpnv 于 2023-05-21 发布在 Spark

关注(0)|答案(2)|浏览(112)

我有一张有.漂亮. parquet 的table.

data= 'part-001-36b4-7ea3-4165-8742-2f32d8643d-c000.snappy.parquet'

我想读这篇文章，并尝试了以下内容：

table = spark.read.load(data, format='delta')

当我尝试使用上面的syntaxy时，我得到了以下错误。AnalysisException: A partition path fragment should be the form likepart1=foo/part2=bar. The partition path: part-001-36b4-7ea3-4165-8742-2f32d8643d-c000.snappy.parquet .
和

table = spark.read.parquet(data)

当我尝试上面的时候，我得到了这个错误：AnalysisException: Incompatible format detected。

pyspark

来源：https://stackoverflow.com/questions/73704230/databricks-reading-data-with-snappy-parquet-extension

2条答案

按热度按时间

8yparm6h1#

df = spark.read.parquet('/path/where/file/is/')

可能你的Parquet是由许多部件生成的，所以你需要读取所有的路径，Parquet部件是在哪里生成的

赞(0）回复(0）举报 2023-05-21

taor4pac2#

如果您不介意使用pandas来完成这个特定的任务，我发现在过去阅读像这样的snappy parquet文件是成功的

import pandas as pd
df = pd.read_parquet(data)

赞(0）回复(0）举报 2023-05-21

我来回答

pyspark Databricks：使用. snappy.parquet扩展名阅读数据

2条答案

相关问题

热门标签

最新问答