嗨,我有2个Parquet文件,列数不同1)名称,类,标记2)名称,类,标记,等级如何使用配置单元中的表读取两个文件中的所有数据。假设该表定义了4列名称、类标记和等级?如何在配置单元中设置parquet.mergeschema属性?
fnatzsnv1#
parquet支持模式演化。如果您正在使用spark sql读取此文件,则必须将spark.sql.parquet.mergeschema设置为true(由于模式合并是一个昂贵的操作,因此spark 1.5.1已关闭)。另请参见《spark sql指南》,模式合并一节。
1条答案
按热度按时间fnatzsnv1#
parquet支持模式演化。如果您正在使用spark sql读取此文件,则必须将spark.sql.parquet.mergeschema设置为true(由于模式合并是一个昂贵的操作,因此spark 1.5.1已关闭)。另请参见《spark sql指南》,模式合并一节。