pyspark在dataproc集群上崩溃

bvuwiixz  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(498)

我正在为我的数据科学项目运行一个在gcp dataproc集群上创建的jupyter笔记本,该集群由3个工作节点和1个“n1-standard2”类型的主节点(2核,7.5gb内存)组成。数据集由约40万行组成。我叫了一个 groupBy 函数与 groupBy 列只包含10个唯一值,因此输出Dataframe应该只包含10行!
我怀疑每次打电话都会死机 grouped_df.show() 或者 grouped_df.toPandas() ,其中在调用 groupBy() 和sum()函数。
这应该是spark最初为处理大型数据集而构建的cakewalk。我附加的Spark配置,我正在使用,我已经在一个函数中定义。

builder = SparkSession.builder \
    .appName("Spark NLP Licensed") \
    .master("local[*]") \
    .config("spark.driver.memory", "40G") \
    .config("spark.serializer", "org.apache.spark.serializer.KryoSerializer") \
    .config("spark.kryoserializer.buffer.max", "2000M") \
    .config("spark.jars.packages", "com.johnsnowlabs.nlp:spark-nlp_2.11:2.5.1") \
    .config("fs.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystem") \
    .config("fs.AbstractFileSystem.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS")
return builder.getOrCreate()

`这就是我得到的错误。请帮忙。

nbysray5

nbysray51#

在setmaster()中设置主机的url很有帮助。现在我可以加载20gb的数据,并在集群上执行groupby()操作。谢谢@mazaneicha。

相关问题