我正在为aws glue开发脚本,并试图模仿开发环境,尽可能接近它们的规范。因为运行一个笔记本服务器/开发端点的成本有点高,所以我在本地机器上设置了所有的东西,在vs code notebook上开发脚本,因为它很有用。
由于安装的python和spark的版本不兼容,笔记本电脑的安装出现了一些问题。
对于python,我经历了一些艰难的时间来清理,现在它的版本是3.8.3
对于spark,我在2.4.3版本中使用手动方法,因为我计划在以后使用scala。我安装 findspark
包以按预期加载该版本。
但它不起作用!错误是 TypeError: an integer is required (got type bytes)
我到处搜索过,有人说要用 pyenv
,我安装了3.7.7,但仍然有相同的错误
作为最后的手段,我试着 pip install pyspark
. 它是spark3.0.0,工作正常,但不是预期的那样。
希望有人有这方面的经验
1条答案
按热度按时间azpvetkf1#
更好的方法是在docker上安装glue依赖项,然后使用vs代码将ssh安装到docker容器中,以模拟精确的glue本地开发环境。
如果你愿意的话,我也写了一篇博客
https://towardsdatascience.com/develop-glue-jobs-locally-using-docker-containers-bffc9d95bd1