hadoop—如何将表注册为spark表并放入Dataframe

inkz8wg9 于 2021-06-02 发布在 Hadoop

关注(0)|答案(3)|浏览(268)

我已经使用spark-thriftserver-jdbc连接将postgresql数据库中的表导入spark-sql，现在从beeline可以看到这些表。
有没有办法把这些表转换成spark数据框。

3条答案

这适用于spark>2.0： df = spark.table('table')

Spark2.0.0http://spark.apache.org/docs/latest/sql-programming-guide.html
sparksession上的sql函数使应用程序能够以编程方式运行sql查询，并将结果作为Dataframe返回。


# spark is an existing SparkSession

df = spark.sql("SELECT * FROM table")

Spark1.6.2http://spark.apache.org/docs/1.6.2/sql-programming-guide.html
以编程方式运行sql查询
sqlcontext上的sql函数使应用程序能够以编程方式运行sql查询，并将结果作为Dataframe返回。

from pyspark.sql import SQLContext
sqlContext = SQLContext(sc)
df = sqlContext.sql("SELECT * FROM table")

这更简单（spark2.4）：

df = spark.table('your_table')
display(df)