我有一个Dataframe,并写入s3桶的目标位置。同时创建一个Dataframe,提供来自aws s3 parquet文件和snowflake sql的输入。在我们使用coalesce的代码中,awss3创建Dataframe和使用coalesce没有问题,但是当使用snowflake sql输入时出现了sparkoutofmemoryerror问题。
雪花代码:
empsql = 'Select * From Employee'
df = spark.sql(empsql) ##Spark is configured
df.coalesce(2).write.mode('overwrite').format("parquet").option("delimiter",'|').save(s3_path, header = True)
result: Error SparkOutOfMemoryError and it worked with repartition
aws s3规范:
empsql = s3_path
aws_s3_df = spark.read.parquet(s3_location)
aws_s3_df.coalesce(2).write.mode('overwrite').format("parquet").option("delimiter",'|').save(s3_path, header = True)
result:No Error and working with coalesce
为什么coalesce使用awss3而不是snowflake sql?
暂无答案!
目前还没有任何答案,快来回答吧!