我已经使用spark-thriftserver-jdbc连接将postgresql数据库中的表导入spark-sql,现在从beeline可以看到这些表。有没有办法把这些表转换成spark数据框。
gcxthw6b1#
这适用于spark>2.0: df = spark.table('table')
df = spark.table('table')
2wnc66cl2#
Spark2.0.0http://spark.apache.org/docs/latest/sql-programming-guide.htmlsparksession上的sql函数使应用程序能够以编程方式运行sql查询,并将结果作为Dataframe返回。
# spark is an existing SparkSession df = spark.sql("SELECT * FROM table")
Spark1.6.2http://spark.apache.org/docs/1.6.2/sql-programming-guide.html以编程方式运行sql查询sqlcontext上的sql函数使应用程序能够以编程方式运行sql查询,并将结果作为Dataframe返回。
from pyspark.sql import SQLContext sqlContext = SQLContext(sc) df = sqlContext.sql("SELECT * FROM table")
ymdaylpp3#
这更简单(spark2.4):
df = spark.table('your_table') display(df)
3条答案
按热度按时间gcxthw6b1#
这适用于spark>2.0:
df = spark.table('table')
2wnc66cl2#
Spark2.0.0http://spark.apache.org/docs/latest/sql-programming-guide.html
sparksession上的sql函数使应用程序能够以编程方式运行sql查询,并将结果作为Dataframe返回。
Spark1.6.2http://spark.apache.org/docs/1.6.2/sql-programming-guide.html
以编程方式运行sql查询
sqlcontext上的sql函数使应用程序能够以编程方式运行sql查询,并将结果作为Dataframe返回。
ymdaylpp3#
这更简单(spark2.4):