我们有pyspark代码,我们想在kubernetes中运行。它应该从数据湖gen1存储器中获取数据。现在,我了解到在databricks中,为了能够访问datalake中的文件,应该首先装载它。我想问:a.)是否可能b.)方法是什么
ztigrdn81#
我发现最简单的方法是遵循apachehadoop的文档。确保将正确的jar下载到类路径中。您需要在hadoop core-site.xml文件中设置各种参数,其示例如下,使用clientcredential和oauth2(我用x替换了private info):
<configuration> <property> <name>fs.adl.oauth2.access.token.provider.type</name> <value>ClientCredential</value> </property> <property> <name>fs.adl.oauth2.refresh.url</name> <value>https://login.microsoftonline.com/xxxx/oauth2/token</value> </property> <property> <name>fs.adl.oauth2.client.id</name> <value>xxxx</value> </property> <property> <name>fs.adl.oauth2.credential</name> <value>xxxx</value> </property> </configuration>
1条答案
按热度按时间ztigrdn81#
我发现最简单的方法是遵循apachehadoop的文档。确保将正确的jar下载到类路径中。
您需要在hadoop core-site.xml文件中设置各种参数,其示例如下,使用clientcredential和oauth2(我用x替换了private info):