如何在使用Pypark读取Parquet文件时指定模式？

x8goxv8g 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(452)

使用scala或pyspark读取hadoop中存储的Parquet文件时，出现错误：


# scala

var dff = spark.read.parquet("/super/important/df")
    org.apache.spark.sql.AnalysisException: Unable to infer schema for Parquet. It must be specified manually.;
      at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$8.apply(DataSource.scala:189)
      at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$8.apply(DataSource.scala:189)
      at scala.Option.getOrElse(Option.scala:121)
      at org.apache.spark.sql.execution.datasources.DataSource.org$apache$spark$sql$execution$datasources$DataSource$$getOrInferFileFormatSchema(DataSource.scala:188)
  at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:387)
  at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:152)
  at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:441)
  at org.apache.spark.sql.DataFrameReader.parquet(DataFrameReader.scala:425)
  ... 52 elided

或

sql_context.read.parquet(output_file)

导致相同的错误。
错误消息非常清楚必须做什么：无法推断Parquet地板的模式。必须手动指定。；。但我在哪能具体说明呢？
spark2.1.1、hadoop2.5、dataframes是在pyspark的帮助下创建的。文件被分成10个部分。

hadoop apache-spark pyspark parquet

来源：https://stackoverflow.com/questions/45203254/how-to-specify-schema-while-reading-parquet-file-with-pyspark

2条答案

按热度按时间

我已经做了同样的快速实施

希望这有帮助！！。。。

赞(0）回复(0）举报 2021-05-29

当您尝试将空目录读取为parquet时，通常会发生此错误。例如，如果您创建了一个空的Dataframe，将其写入parquet中，然后读取，则会出现此错误。您可以检查Dataframe是否为空 rdd.isEmpty() 在写之前。

赞(0）回复(0）举报 2021-05-29

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 3个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 3个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 3个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 3个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 3个月前