为了将读取操作并行化,并使用多个执行器进行读取。我想用JDBC阅读,而不是下面的阅读代码。
hosts ={"spark.cassandra.connection.host":'node1_ip,node2_ip,node3_ip',
"table":"ex_table","keyspace":"ex_keyspace"}
data_frame=sqlContext.read.format("org.apache.spark.sql.cassandra") \
.options(**hosts).load()
如何使用pySpark中的JDBC读取Cassandra数据?
1条答案
按热度按时间7cwmlq891#
DataStax为Apache Spark提供了一个JDBC驱动程序,允许您使用JDBC连接从Spark连接到Cassandra。
JDBC驱动程序可从DataTax下载站点下载。
请参阅Installing the Simba JDBC driver的说明。此外,还有一个User Guide,用于通过一些示例配置驱动程序。干杯