我有一个由hadoop集群组成的head节点,我看到pyspark安装在hdfs集群中,也就是说我可以在hdfs user内部使用pyspark shell,但是在user headnode中没有安装pyspark。因此,我无法从hdfs访问文件并将其带到pyspark。如何使用jupyter笔记本中hdfs中的pyspark。我在user head节点中安装了pyspark,但无法访问hdfs文件。我假设jupyter无法使用hdfs中安装的spark。如何启用它以便访问hdfs文件在jupyter里面。
现在当我访问jupyter中的hdfs文件时, It says 'Spark is not installed'
我知道它是广泛的,如果我有不足强调或过度强调任何一点让我知道在评论
1条答案
按热度按时间6za6bjd01#
头节点是不同的linux帐户还是不同的linux主机?
如果只是不同的帐户-则比较两个帐户上的环境变量。登录到hdfs并运行“env | sort”,然后在headnode上执行相同的操作。
主要检查环境变量路径是否有差异,以及一些spark变量