无法从sqoop创建的spark中的序列文件创建Dataframe

yr9zkbsy  于 2021-06-01  发布在  Hadoop
关注(0)|答案(2)|浏览(337)

我想读书 orders 数据并从中创建rdd,rdd存储为 sequence hadoop fs中的文件
cloudera vm . 以下是我的步骤:
1) 将订单数据作为序列文件导入:

sqoop import --connect jdbc:mysql://localhost/retail_db --username retail_dba --password cloudera  --table orders -m 1 --target-dir /ordersDataSet --as-sequencefile

2) 正在spark scala中读取文件:
Spark1.6

val sequenceData=sc.sequenceFile("/ordersDataSet",classOf[org.apache.hadoop.io.Text],classOf[org.apache.hadoop.io.Text]).map(rec => rec.toString())

3) 当我试图从上面的rdd读取数据时,它会抛出以下错误:

Caused by: java.io.IOException: WritableName can't load class: orders
    at org.apache.hadoop.io.WritableName.getClass(WritableName.java:77)
    at org.apache.hadoop.io.SequenceFile$Reader.getValueClass(SequenceFile.java:2108)
    ... 17 more
Caused by: java.lang.ClassNotFoundException: Class orders not found
    at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:2185)
    at org.apache.hadoop.io.WritableName.getClass(WritableName.java:75)
    ... 18 more

我不知道为什么上面说找不到订单。我哪里出错了?
我也引用了这两个链接的代码,但运气不好:
1) 参考序列部分
2) 参见第8步

pw9qyyiw

pw9qyyiw1#

sqoop与此几乎没有关系,下面是一个更现实的场景示例,其中saveassequencefile始终假定k,v对-这可能会帮助您:

import org.apache.hadoop.io._

val RDD = sc.parallelize( List( (1, List("A", "B")) , (2, List("B", "C")) , (3, List("C", "D", "E")) ) )
val RDD2 = RDD.map(x => (x._1, x._2.mkString("/")))
RDD2.saveAsSequenceFile("/rushhour/seq-directory/2")

val sequence_data = sc.sequenceFile("/rushhour/seq-directory/*", classOf[IntWritable], classOf[Text])
                  .map{case (x, y) => (x.get(), y.toString().split("/")(0), y.toString().split("/")(1))}

sequence_data.collect

退货:

res20: Array[(Int, String, String)] = Array((1,A,B), (2,B,C), (3,C,D), (1,A,B), (2,B,C), (3,C,D))

我不确定您是否需要rdd或df,但是将rdd转换为df当然是微不足道的。

x0fgdtte

x0fgdtte2#

我想出了解决自己问题的办法。好吧,我将写一个冗长的解决方案,但我希望它会有一些意义。
1) 当我试图读取导入的数据时 HDFS 使用 SQOOP ,它给出了一个错误,原因如下:
a) 序列文件是关于 key-value pair . 因此,当我使用sqoop导入它时,导入的数据不在键值对中,这就是为什么在读取时抛出错误的原因。
b) 如果你想读书 few characters 你可以从中找出 two classes 读取序列文件时作为输入传递所需的数据如下:

[cloudera@quickstart ~]$ hadoop fs -cat /user/cloudera/problem5/sequence/pa* | head -c 300
SEQ!org.apache.hadoop.io.LongWritableorders�;�M��c�K�����@���-OCLOSED@���PENDING_PAYMENT@���/COMPLETE@���"{CLOSED@���cat: Unable to write to output stream.

上面你只能看到 one classorg.apache.hadoop.io.LongWritable 当我在读取序列数据时传递它时,它抛出了一个错误,这在后面提到过。

val sequenceData=sc.sequenceFile("/ordersDataSet",classOf[org.apache.hadoop.io.LongWritable],classOf[org.apache.hadoop.io.LongWritable]).map(rec => rec.toString())

我不认为 B 这一点是错误的主要原因,但我非常肯定 A 这一点才是那个错误的真正罪魁祸首。
2) 下面是我解决问题的方法。
我导入了数据作为
avro data 在其他目标中使用 SQOOP . 然后我使用以下方法从avro创建了Dataframe:

scala> import com.databricks.spark.avro._;
scala> val avroData=sqlContext.read.avro("path")

现在我创造了 key-value pair 并将其另存为 sequence 文件

avroData.map(p=>(p(0).toString,(p(0)+"\t"+p(1)+"\t"+p(2)+"\t"+p(3)))).saveAsSequenceFile("/user/cloudera/problem5/sequence")

现在当我试着阅读的时候 few 上面写的文件的字符它给我 two classes 我在阅读以下文件时需要:

[cloudera@quickstart ~]$ hadoop fs -cat /user/cloudera/problem5/sequence/part-00000 | head -c 300
SEQorg.apache.hadoop.io.Textorg.apache.hadoop.io.Text^#%���8P���11  1374735600000   11599   CLOSED&2#2  1374735600000   256 PENDING_PAYMENT!33  1374735600000   12111   COMPLETE44  1374735600000   8827    CLOSED!55   1374735600000   11318   COMPLETE 66 1374cat: Unable to write to output stream.  

scala> val sequenceData=sc.sequenceFile("/user/cloudera/problem5/sequence",classOf[org.apache.hadoop.io.Text],classOf[org.apache.hadoop.io.Text]).map(rec=>rec.toString)
sequenceData: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[26] at map at <console>:30

现在,当我尝试打印数据时,它会显示如下数据:

scala> sequenceData.take(4).foreach(println)
(1,1    1374735600000   11599   CLOSED)
(2,2    1374735600000   256 PENDING_PAYMENT)
(3,3    1374735600000   12111   COMPLETE)
(4,4    1374735600000   8827    CLOSED)

最后,感谢大家的努力。干杯!!

相关问题