如何使用pySpark中的JDBC读取Cassandra数据?

up9lanfz  于 2022-09-27  发布在  Spark
关注(0)|答案(1)|浏览(147)

为了将读取操作并行化,并使用多个执行器进行读取。我想用JDBC阅读,而不是下面的阅读代码。

hosts ={"spark.cassandra.connection.host":'node1_ip,node2_ip,node3_ip',
   "table":"ex_table","keyspace":"ex_keyspace"}
data_frame=sqlContext.read.format("org.apache.spark.sql.cassandra") \
  .options(**hosts).load()

如何使用pySpark中的JDBC读取Cassandra数据?

7cwmlq89

7cwmlq891#

DataStax为Apache Spark提供了一个JDBC驱动程序,允许您使用JDBC连接从Spark连接到Cassandra。
JDBC驱动程序可从DataTax下载站点下载。
请参阅Installing the Simba JDBC driver的说明。此外,还有一个User Guide,用于通过一些示例配置驱动程序。干杯

相关问题