spark scala如何执行

piwo6bdm 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(397)

我已经编写了以下代码，它返回一个“class not found”异常。我不确定要如何将csv文件中的数据加载到sparksql中。

import org.apache.spark.SparkContext

/**

 * Loading sales csv using DataFrame API

 */

object CsvDataInput {

  def main(args: Array[String]) {    

    val sc = new SparkContext(args(0), "Csv loading example")

    val sqlContext = new org.apache.spark.sql.SQLContext(sc)

    val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> args(1),"header"->"true"))

    df.printSchema()

    df.registerTempTable("data")

    val aggDF = sqlContext.sql("select * from data")

    println(aggDF.collectAsList())

  } 
}

hadoop apache-spark apache-spark-sql cloudera apache-spark-1.4

来源：https://stackoverflow.com/questions/32449957/spark-scala-how-to-execute