我正在尝试在 Dataframe 中执行以下简单代码:import ast rddAlertsRdd = df.rdd.map(lambda message: ast.literal_eval(message['value'])) rddAlerts= rddAlertsRdd.collect()
但我得到下面的错误:
版本:
- Spark:3.3.1
- Hadoop:2.7
- Python语言:3.7
- Spark:3.3.1
- Py4j:网址:www.example.com0.10.9.5
- 开放JDK:8个
会不会是兼容版本的问题?感谢您的帮助!
为了解决这个问题,我试着改变我的Dockerfile中的Spark环境变量。这是我的Dockerfile中的内容:
1条答案
按热度按时间jfewjypa1#
tl;dr不知道什么地方可能出错,但是在阅读源代码时给你提供了更多关于可能原因的信息。希望这对你有所帮助。
coverage_daemon
的唯一位置是python/test_coverage/conf/spark-defaults.conf,它(正如您可能已经猜到的)用于测试覆盖率,似乎没有在生产中使用。看起来由于某种原因python/run-tests-with-coverage被执行了。
看起来您使用的Jupyter环境似乎配置错误。