scala-如何返回这种rdd类型

zdwk9cvp  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(419)

我试图让return rdd引用这个方法,但是失败了,因为return需要参数。根据api(java),我的代码如下:

def HBaseToRDD(_HBaseConfiguration:HBaseConfiguration, _sc:SparkContext) : RDD[(K, V)] = 
{
val HBaseRDD = _sc.newAPIHadoopRDD(_HBaseConfiguration, classOf[TableInputFormat],
            classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
            classOf[org.apache.hadoop.hbase.client.Result])
}

有什么办法解决这个问题吗?提前谢谢。。。

qij5mzcb

qij5mzcb1#

正如尤瓦尔·伊扎科夫已经提到的 K 以及 V 此外,我观察到以下情况:
方法中缺少返回值
即使你愿意归还你的 val HBaseRDD 代码仍然无法编译,因为预期返回值的类型为 RDD[(K, V)] 但是 val HBaseRDD 属于类型 RDD[(org.apache.hadoop.hbase.io.ImmutableBytesWritable, org.apache.hadoop.hbase.client.Result)] 考虑到这一点和几个假设,工作代码示例可以如下所示:

def HBaseToRDD[K, V](_HBaseConfiguration:HBaseConfiguration, _sc:SparkContext) : RDD[(K, V)] =
{
  def toK(key: org.apache.hadoop.hbase.io.ImmutableBytesWritable): K = {
    // here you convert key to K
  }

  def toV(row: org.apache.hadoop.hbase.client.Result): V = {
    // here you convert row to V
  }

  // no need to assign to variable, the result of map will be returned by scala
  _sc.newAPIHadoopRDD(_HBaseConfiguration, classOf[TableInputFormat],
    classOf[org.apache.hadoop.hbase.io.ImmutableBytesWritable],
    classOf[org.apache.hadoop.hbase.client.Result]).map { case (key, row) =>
    toK(key) -> toV(row) // return tuple of type (K, V)
  }
}

相关问题