python 遇到“WARN过程度量获取器:尝试计算页面大小时出现异常”运行Spark时出现错误

6bc51xsx  于 2023-02-02  发布在  Python
关注(0)|答案(4)|浏览(173)

我安装了spark,当尝试运行它时,我得到错误:警告过程度量获取器:尝试计算页面大小时出现异常,因为ProcessTree度量的报告已停止
有人能帮我吗?

dpiehjr4

dpiehjr41#

我在Windows 10上运行Spark 3.0.1,使用Scala 2.12.10时收到了同样的消息。从它结束程序执行的意义上说,这实际上不是一个错误。这是一个与Linux机器上的/proc文件系统相关的警告。
如果你也在Windows机器上,答案可能是,引用Wing Yew Poon @ Apache的话:“出现警告是因为运行了命令“getconf PAGESIZE”,但该命令在Windows上无效,因此捕获了异常。”(来自此处的Spark jira问题)。
如果你的程序在抛出这个异常消息后就失败了,那是因为其他原因。在我的例子中,Spark在这个警告后就崩溃了:

20/11/13 12:41:51 ERROR MicroBatchExecution: Query [id = 32320bc7-d7ba-49b4-8a56-1166a4f2d6db, runId = d7cc93c2-41ef-4765-aecd-9cd453c25905] terminated with error
org.apache.spark.SparkException: Job 1 cancelled because SparkContext was shut down

这个警告可以通过设置spark.executor.processTreeMetrics.enabled为false来隐藏。再次引用潘先生的话,“你看到这个警告是一个小错误。但是可以安全地忽略它。”

pbpqsu0x

pbpqsu0x2#

同样的问题也发生在我身上,因为python路径没有添加到系统环境中。我在环境中添加了这个,现在它工作得很完美。
添加PYTHONPATH环境变量,其值为:

%SPARK_HOME%\python;%SPARK_HOME%\python\lib\py4j-<version>-src.zip;%PYTHONPATH%

帮助解决了这个问题。请检查spark/python/lib folder中的py4j版本。

owfi6suc

owfi6suc3#

在Windows上运行时,我收到了同样的错误。我解决了将python可执行文件添加到环境变量中的问题:

PYSPARK_PYTHON = C:\wherever\python.exe

下面是我需要添加的三个变量。

虽然这并没有消除警告消息,但它允许程序运行完成,而不会在警告后冻结或失败。

5w9g7ksd

5w9g7ksd4#

我找到错误的原因了,是因为VPN...

相关问题