如何使用pyspark连接到独立的cassandra？

tjvv9vkg 于 2021-06-10 发布在 Cassandra

关注(0)|答案(0)|浏览(279)

请原谅这些天真的问题，但我对ml&distributed/no-sql数据库还不熟悉。我已经安装了独立的cassandra和pyspark，并验证了这些安装（从jupyter笔记本验证了pyspark版本，创建了密钥空间/表等）。我的目标是能够使用pyspark（jupyter）连接到本地/独立的cassandra键空间/表。
我知道在类似的主题上有一些线程，但大多数似乎都是围绕datastax cassandra而不是独立版本，而且似乎没有一个简单的解决方案来说明如何在本地安装anguenot/pyspark cassandra并使连接器工作。
以下是我到目前为止所拥有的（windows 10计算机）：
在my local中安装了独立的pyspark（c:\spark\spark-2.4.4-bin-hadoop2.7）
在my local中安装了独立的cassandra（c:\cassandra\apache-cassandra-3.11.4）
下载了zip文件(https://github.com/anguenot/pyspark-cassandra/archive/v0.7.0.zip)（c:\users\downloads\pyspark-cassandra-0.7.0.zip）
在我的命令提示符（spark bin目录）上，我正在尝试运行以下命令：

pyspark — py-files C:\Users\<username>\Downloads\\pyspark-cassandra-0.7.0.zip \
  --packages anguenot/pyspark-cassandra:0.7.0 \
  --conf spark.cassandra.connection.host=172.0.0.1

我得到以下错误：

Traceback (most recent call last):
File “C:\Users\<path>\anaconda3\Scripts\jupyter-script.py”, line 9, in <module>
sys.exit(main())
File “C:\Users\<path>\anaconda3\lib\site-packages\jupyter_core\command.py”, line 230, in main
command = _jupyter_abspath(subcommand)
File “C:\Users\<path>\anaconda3\lib\site-packages\jupyter_core\command.py”, line 133, in _jupyter_abspath
‘Jupyter command `{}` not found.’.format(jupyter_subcommand)
Exception: Jupyter command `jupyter-notebook` not found.

假设此安装已完成，我的下一步将在pyspark中运行以下程序以连接到cassandra：

from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext

load_options = { "table": "TABLE_NAME", "keyspace": "KEYSPACE_NAME"}
df=spark.read.format("org.apache.spark.sql.cassandra").options(**load_options).load()
df.show()

谢谢你的意见。

cassandra pyspark jupyter-notebook

来源：https://stackoverflow.com/questions/58699381/how-to-connect-to-standalone-cassandra-using-pyspark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何使用pyspark连接到独立的cassandra？

暂无答案！

相关问题

热门标签

最新问答