如何访问安装在hdfs头节点集群中的pyspark

1szpjjfi  于 2021-05-31  发布在  Hadoop
关注(0)|答案(1)|浏览(562)

我有一个由hadoop集群组成的head节点,我看到pyspark安装在hdfs集群中,也就是说我可以在hdfs user内部使用pyspark shell,但是在user headnode中没有安装pyspark。因此,我无法从hdfs访问文件并将其带到pyspark。如何使用jupyter笔记本中hdfs中的pyspark。我在user head节点中安装了pyspark,但无法访问hdfs文件。我假设jupyter无法使用hdfs中安装的spark。如何启用它以便访问hdfs文件在jupyter里面。
现在当我访问jupyter中的hdfs文件时, It says 'Spark is not installed' 我知道它是广泛的,如果我有不足强调或过度强调任何一点让我知道在评论

6za6bjd0

6za6bjd01#

头节点是不同的linux帐户还是不同的linux主机?
如果只是不同的帐户-则比较两个帐户上的环境变量。登录到hdfs并运行“env | sort”,然后在headnode上执行相同的操作。
主要检查环境变量路径是否有差异,以及一些spark变量

相关问题