如何使用pyspark连接到独立的cassandra?

tjvv9vkg  于 2021-06-10  发布在  Cassandra
关注(0)|答案(0)|浏览(279)

请原谅这些天真的问题,但我对ml&distributed/no-sql数据库还不熟悉。我已经安装了独立的cassandra和pyspark,并验证了这些安装(从jupyter笔记本验证了pyspark版本,创建了密钥空间/表等)。我的目标是能够使用pyspark(jupyter)连接到本地/独立的cassandra键空间/表。
我知道在类似的主题上有一些线程,但大多数似乎都是围绕datastax cassandra而不是独立版本,而且似乎没有一个简单的解决方案来说明如何在本地安装anguenot/pyspark cassandra并使连接器工作。
以下是我到目前为止所拥有的(windows 10计算机):
在my local中安装了独立的pyspark(c:\spark\spark-2.4.4-bin-hadoop2.7)
在my local中安装了独立的cassandra(c:\cassandra\apache-cassandra-3.11.4)
下载了zip文件(https://github.com/anguenot/pyspark-cassandra/archive/v0.7.0.zip)(c:\users\downloads\pyspark-cassandra-0.7.0.zip)
在我的命令提示符(spark bin目录)上,我正在尝试运行以下命令:

pyspark — py-files C:\Users\<username>\Downloads\\pyspark-cassandra-0.7.0.zip \
  --packages anguenot/pyspark-cassandra:0.7.0 \
  --conf spark.cassandra.connection.host=172.0.0.1

我得到以下错误:

Traceback (most recent call last):
File “C:\Users\<path>\anaconda3\Scripts\jupyter-script.py”, line 9, in <module>
sys.exit(main())
File “C:\Users\<path>\anaconda3\lib\site-packages\jupyter_core\command.py”, line 230, in main
command = _jupyter_abspath(subcommand)
File “C:\Users\<path>\anaconda3\lib\site-packages\jupyter_core\command.py”, line 133, in _jupyter_abspath
‘Jupyter command `{}` not found.’.format(jupyter_subcommand)
Exception: Jupyter command `jupyter-notebook` not found.

假设此安装已完成,我的下一步将在pyspark中运行以下程序以连接到cassandra:

from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext

load_options = { "table": "TABLE_NAME", "keyspace": "KEYSPACE_NAME"}
df=spark.read.format("org.apache.spark.sql.cassandra").options(**load_options).load()
df.show()

谢谢你的意见。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题