在Spark中阅读CSV文件时,我遇到了enforceSchema option。当读取多个文件时,如果CSV头在文件中不匹配,此选项允许读取失败。对于parquet文件,是否有等效的选项?
g6baxovj1#
根据docs,没有用于阅读 parquet 的“enforceSchema”,这是有意义的,因为数据的模式是在 parquet 文件的元数据中推断的,因此由于模式已经包含在文件元数据中,因此不能被覆盖。您可以将parquet读入一个 Dataframe ,然后尝试在该 Dataframe 上比较/应用模式
1条答案
按热度按时间g6baxovj1#
根据docs,没有用于阅读 parquet 的“enforceSchema”,这是有意义的,因为数据的模式是在 parquet 文件的元数据中推断的,因此由于模式已经包含在文件元数据中,因此不能被覆盖。
您可以将parquet读入一个 Dataframe ,然后尝试在该 Dataframe 上比较/应用模式