sparksql:我做得对吗？

6ioyuze2 于 2021-06-10 发布在 Hbase

关注(0)|答案(1)|浏览(453)

下面是如何在我正在使用的一个小应用程序中使用sparksql。我有两个hbase表，比如t1，t2。
我的输入是一个csv文件，我解析每一行并查询（sparksql）表t1。我将输出写入另一个文件。
现在我解析第二个文件并查询第二个表，对结果应用某些函数并输出数据。表t1包含购买详细信息，表t2包含每个用户随时间框架添加到购物车的项目列表。
输入->客户ID（csv文件中的列表）
输出->下面提到的特定格式的csv文件。
customerid，他带来的物品的详细信息，他添加到购物车的第一件物品，他添加到购物车的所有物品，直到购买为止。
输入1100条记录，需要两个小时才能完成整个过程！
我想知道我能否加快这个过程，但我被打动了。有什么帮助吗？

hbase phoenix apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/40326290/sparksql-am-i-doing-in-right

1条答案

按热度按时间

vtwuwzda1#

这个Dataframe方法怎么样。。。
1）从csv创建Dataframe。
如何将csv文件读取为dataframe或类似的示例。

val csv = sqlContext.sparkContext.textFile(csvPath).map {
  case(txt) =>
    try {
      val reader = new CSVReader(new StringReader(txt), delimiter, quote, escape, headerLines)
      val parsedRow = reader.readNext()
      Row(mapSchema(parsedRow, schema) : _*)
    } catch {
     case e:  IllegalArgumentException =>  throw new UnsupportedOperationException("converted from Arg to Op except")
 }
    }

2）从hbase数据（如果使用hortonworks）或phoenix创建另一个Dataframe。
3）加入并应用函数（可以是udf，也可以是其他函数）。。等等…），生成的文件可能又是一个Dataframe
4）将结果Dataframe与第二个表连接并以csv格式输出数据，如下面的示例中的伪代码所示。。。
应该可以准备带有自定义列和相应值的数据框，并另存为csv文件。你也可以把这种放在Spark壳里。

val df = sqlContext.read.format("com.databricks.spark.csv").
                             option("header", "true").
                             option("inferSchema","true").
                             load("cars93.csv")
    val df2=df.filter("quantity <= 4.0")
    val col=df2.col("cost")*0.453592
    val df3=df2.withColumn("finalcost",col)
    df3.write.format("com.databricks.spark.csv").
                             option("header","true").
                             save("output-csv")

希望这有帮助。。祝你好运。

赞(0）回复(0）举报 2021-06-10

我来回答

sparksql:我做得对吗？

1条答案

相关问题

热门标签

最新问答