pyspark错误：attributeerror:'sparksession'对象没有属性'parallelize'

rqqzpn5f 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(1705)

我用的是jupyter笔记本上的pyspark。以下是spark设置的方法：

import findspark
findspark.init(spark_home='/home/edamame/spark/spark-2.0.0-bin-spark-2.0.0-bin-hadoop2.6-hive', python_path='python2.7')

    import pyspark
    from pyspark.sql import *

    sc = pyspark.sql.SparkSession.builder.master("yarn-client").config("spark.executor.memory", "2g").config('spark.driver.memory', '1g').config('spark.driver.cores', '4').enableHiveSupport().getOrCreate()

    sqlContext = SQLContext(sc)

当我这么做的时候：

spark_df = sqlContext.createDataFrame(df_in)

哪里 df_in 是一个Dataframe。然后出现以下错误：

---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
<ipython-input-9-1db231ce21c9> in <module>()
----> 1 spark_df = sqlContext.createDataFrame(df_in)

/home/edamame/spark/spark-2.0.0-bin-spark-2.0.0-bin-hadoop2.6-hive/python/pyspark/sql/context.pyc in createDataFrame(self, data, schema, samplingRatio)
    297         Py4JJavaError: ...
    298         """
--> 299         return self.sparkSession.createDataFrame(data, schema, samplingRatio)
    300 
    301     @since(1.3)

/home/edamame/spark/spark-2.0.0-bin-spark-2.0.0-bin-hadoop2.6-hive/python/pyspark/sql/session.pyc in createDataFrame(self, data, schema, samplingRatio)
    520             rdd, schema = self._createFromRDD(data.map(prepare), schema, samplingRatio)
    521         else:
--> 522             rdd, schema = self._createFromLocal(map(prepare, data), schema)
    523         jrdd = self._jvm.SerDeUtil.toJavaArray(rdd._to_java_object_rdd())
    524         jdf = self._jsparkSession.applySchemaToPythonRDD(jrdd.rdd(), schema.json())

/home/edamame/spark/spark-2.0.0-bin-spark-2.0.0-bin-hadoop2.6-hive/python/pyspark/sql/session.pyc in _createFromLocal(self, data, schema)
    400         # convert python objects to sql data
    401         data = [schema.toInternal(row) for row in data]
--> 402         return self._sc.parallelize(data), schema
    403 
    404     @since(2.0)

AttributeError: 'SparkSession' object has no attribute 'parallelize'

有人知道我做错了什么吗？谢谢！

hadoop python apache-spark pyspark pandas

来源：https://stackoverflow.com/questions/39521341/pyspark-error-attributeerror-sparksession-object-has-no-attribute-paralleli

1条答案

按热度按时间

kse8i1jr1#

SparkSession 不能代替 SparkContext 但相当于 SQLContext . 用你以前用的方法 SQLContext :

spark.createDataFrame(...)

如果你有机会 SparkContext 使用 sparkContext 属性：

spark.sparkContext

所以如果你需要 SQLContext 为了向后兼容，您可以：

SQLContext(sparkContext=spark.sparkContext, sparkSession=spark)

赞(0）回复(0）举报 2021-06-02

我来回答

pyspark错误：attributeerror:'sparksession'对象没有属性'parallelize'

1条答案

相关问题

热门标签

最新问答