SparkParquet文件加载不同的模式

k2fxgqgv 于 2021-05-27 发布在 Spark

关注(0)|答案(5)|浏览(382)

我们使用两种不同的模式生成Parquet文件，其中包含id和amount字段。
文件：
file1.snappy.Parquet地板
编号：int
金额：十进制（15,6）
内容：
1,19500.00
2,198.34
file2.snappy.Parquet地板
编号：int
金额：十进制（15,2）
内容：
1,19500.00
3,198.34
当我同时加载这两个文件df3=spark.read.parquet（“output/”）并试图获取数据时，它推断出十进制（15,6）的模式是对包含十进制数（16,2）的量的文件的，并且文件数据被错误地操作。有没有一个方法，我可以检索到这个案件的数据正确。
执行df3.show（）后可以看到的最终输出
+---+

apache-spark apache-spark-sql parquet

来源：https://stackoverflow.com/questions/62874101/spark-parquet-file-loading-with-different-schema

5条答案

按热度按时间

7gcisfzg1#

-------+
在这里，如果你看到第一和第二行的金额被错误地操纵。
寻找一些关于这个的建议。我知道，如果我们用相同的模式重新生成文件，这个问题就会消失，这需要重新生成和替换已交付的文件，在我们重新生成这些文件的过程中，是否有其他临时方法可以使用。
~r~克里斯

赞(0）回复(0）举报 2021-05-27

monwx1rj2#

-------+
| 1|        1.950000|
| 3|        0.019834|
| 1|19500.000000|
| 2|    198.340000|
+---+

赞(0）回复(0）举报 2021-05-27

w80xi6nr3#

您可以尝试将mergeschema属性用作true。所以

df3 = spark.read.parquet("output/")

试试这个：

df3 = spark.read.option("mergeSchema","true").parquet("output/")

这对你来说应该有用。

赞(0）回复(0）举报 2021-05-27

uelo1irk4#

-------+
|身份证| 金额|
+---+

赞(0）回复(0）举报 2021-05-27

qvtsj1bj5#

尝试将其作为字符串读取，并在读取文件时手动提供架构

schema = StructType([
StructField("flag_piece", StringType(), True)
])

spark.read.format("parquet").schema(schema).load(path)

赞(0）回复(0）举报 2021-05-27

我来回答

SparkParquet文件加载不同的模式

5条答案

相关问题

热门标签

最新问答