有没有人有经验或成功地使用hbastorage通过pig on dataproc从bigtable加载数据?
这里有一个非常简单的Pig脚本,我正在尝试运行。它失败了,错误表明它找不到bigtableconnection类,我想知道我可能缺少什么设置来成功地从bigtable加载数据。
raw = LOAD 'hbase://my_hbase_table'
USING org.apache.pig.backend.hadoop.hbase.HBaseStorage(
'cf:*', '-minTimestamp 1490104800000 -maxTimestamp 1490105100000 -loadKey true -limit 5')
AS (key:chararray, data);
DUMP raw;
设置群集所遵循的步骤:
启动bigtable集群(myu-bt);创建并填充了我的\u hbase \u表
通过cloud.google.com cloud dataproc控制台启动了dataproc群集(my\ U dp)
在dataproc主机(/opt/hbase-1.2.1)上安装了hbase shellhttps://cloud.google.com/bigtable/docs/installing-hbase-shell
已将属性添加到 hbase-site.xml
对于我的\u bt和bigtableconnection类
已创建文件 t.pig
上面列出的内容
通过命令调用pig: gcloud beta dataproc jobs submit pig --cluster my_dp --file t.pig --jars /opt/hbase-1.2.1/lib/bigtable/bigtable-hbase-1.2-0.9.5.1.jar
出现以下错误,指示未找到bigtableconnection类:
2017-03-21 15:30:48029[作业控制]错误org.apache.hadoop.hbase.mapreduce.tableinputformat-java.io.ioexception:java.lang.classnotfoundexception:com.google.cloud.bigtable.hbase1_2.bigtableconnection
1条答案
按热度按时间qzwqbdag1#
诀窍是获得对pig类路径的所有依赖。使用solomon指出的jar,我创建了以下初始化操作,它下载两个jar,bigtable mapreduce jar和netty tcnative boringssl,并设置pig类路径。
然后,您可以按照通常的方式传入bigtable配置:
通过hbase-site.xml
提交作业时指定属性: