我对spark完全陌生,对python的了解也很有限。一周来,我一直在尝试安装spark并通过以下youtube与pycharm建立联系:https://www.youtube.com/playlist?list=plf0swtfhti8pybd8mr36liyiooy2xw5iu
但是,我不得不使用python3.7而不是python2.7、hadoop2.7.1和spark2.4.5版本。哦,还用了JDK1.8.0\u251
我设法设置了环境变量:
hadoop\u home=c:\spark\hadoop
java\u home=c:\program files\java\jdk1.8.0\u 251
spark\u home=c:\spark\spark-2.4.5-bin-hadoop2.7
对于路径,它是这样做的:c:\program files\java\jdk-14\bin c:\python37%java\u home%\bin%hadoop\u home%\bin%spark\u home%\bin
因此,当我在命令面板中尝试视频中的示例代码时,它显示了spark,可以使用sc.textfile(“”.first()显示文本文件的第一行。
发生的问题是当我把spark连接到pycharm时。正如您在这里看到的,我在前面的视频之后正确地添加了contentroot。
添加spark和py4j.zip的项目结构截图
但是,当我想运行程序时,
我试过的代码
它打印出了这个错误。
回溯(最后一次调用):文件“c:/users/hp/pycharmprojects/fypj/sparkdemo.py”,第4行,在sc=sparkcontext(“local”,appname=“myapp”)文件“c:\spark\spark-2.4.5-bin-hadoop2.7\python\pyspark\context.py”,第133行,在init sparkcontext中。\u确保\u已初始化(self,gateway=gateway,conf=conf)文件“c:\spark\spark-2.4.5-bin-hadoop2.7\python\pyspark\context.py”,第316行,在\u确保\u初始化sparkcontext.\u gateway=gateway或启动\u gateway(conf)文件“c:\spark\spark-2.4.5-bin-hadoop2.7\python\pyspark\java \u gateway.py”,第46行,在launch\u gateway return\u launch\u gateway(conf)file“c:\spark\spark-2.4.5-bin-hadoop2.7\python\pyspark\java\u gateway.py”第101行,在launch\u gateway proc=popen(command,stdin=pipe,env=env)file“c:\python37\lib\subprocess.py”第756行,在init restore\u signals中,start\u new\u session)file“c:\python37\lib\subprocess.py”第1155行,在\u execute\u child startupinfound)filenotfounderror:[winerror 2]지정된 파일을 찾을 수 없습니다
当我搜索google以找出错误所在时,我怀疑是因为我的文件目录出错了。因此,我尝试了“/datasets/kddcup.data.txt”等,但没有效果。。。
请帮我解决这个问题,谢谢你看新人的傻问题。我会提供任何需要的信息来解决这个问题,如果这个信息是不够的。再次感谢你。
暂无答案!
目前还没有任何答案,快来回答吧!