我使用pyspark将hbase表作为Dataframe来读取,但出现了一些错误:
sc = SparkContext(master="local[*]", appName="test")
spark = SparkSession(sc).builder.getOrCreate()
df = spark.read.format('org.apache.hadoop.hbase.spark') \
.option('hbase.table', 'h_table') \
.option('hbase.columns.mapping',
'life_id STRING :key, score STRING info:total_score') \
.option('hbase.use.hbase.context', False) \
.option('hbase.config.resources', 'file:///home/softs/hbase-2.0.5/conf/hbase-site.xml') \
.option('hbase-push.down.column.filter', False) \
.load()
df.show()
它显示: java.lang.ClassNotFoundException: Failed to find data source: org.apache.hadoop.hbase.spark. Please find packages at http://spark.apache.org/third-party-projects.html
我看了演示
1条答案
按热度按时间2uluyalo1#
依赖项没有打包到jar中。如果不希望在项目中打包依赖项,请使用spark submit的-packages标志来指定所使用连接器的uri
将以下行添加到
spark-submit
命令:它应该有用。