我对spark和python是新手,我有一个sql,它存储在python的一个变量中,我们使用snowflake数据库。如何使用带有雪花连接的sql创建spark数据?
import sf_connectivity (we have a code for establishing connection with Snowflake database)
emp = 'Select * From Employee'
snowflake_connection = sf_connectivity.collector() (It is a method to establish snowflake conenction)
requirement 1: Create Spark Dataframe (sf_df) using 'emp' and 'snowflake_connection '
requirement 2: sf_df.createOrReplaceTempView(Temp_Employee)
它需要什么包或库?我怎样才能做到这一点?
2条答案
按热度按时间mwyxok5s1#
帮助我解决这个问题的文档如下:https://docs.databricks.com/data/data-sources/snowflake.html
我花了一段时间才想出如何让它工作!在问了很多问题之后,我让我公司的it部门配置了一个带有私钥/公钥身份验证的snowflake用户帐户,他们将该id配置为可以在我们公司的databricks帐户中访问。
设置好之后,下面的代码是一个示例,说明如何将sql命令作为变量传递给spark,并让spark将其转换为Dataframe。
0sgqnhkj2#
对于公钥/私钥,您需要生成证书https://community.snowflake.com/s/article/how-to-connect-snowflake-with-spark-connector-using-public-private-key 然后你可以使用下面的代码。