如何并行和分布式执行多个查询？

ldioqlga 于 2021-05-27 发布在 Spark

关注(0)|答案(2)|浏览(416)

我使用的是spark 2.4.1版本和Java8。
我有这样的场景：
将提供属性文件中要处理的分类器列表。
这些分类器决定了要提取和处理的数据。
如下所示：

val classifiers = Seq("classifierOne","classifierTwo","classifierThree");

for( classifier : classifiers ){
  // read from CassandraDB table   
  val acutalData = spark.read(.....).where(<classifier conditition>)

  // the data varies depend on the classifier passed in 
  // this data has many fields along with fieldOne, fieldTwo and fieldThree

取决于分类器，我需要过滤数据。目前我正在做以下工作：

if(classifier.===("classifierOne")) {
  val classifierOneDs =  acutalData.filter(col("classifierOne").notEqual(lit("")).or(col("classifierOne").isNotNull()));
  writeToParquet(classifierOneDs);                           
} else if(classifier.===("classifierTwo")) {
  val classifierTwoDs =  acutalData.filter(col("classifierTwo").notEqual(lit("")).or(col("classifierTwo").isNotNull()));
  writeToParquet(classifierOneDs);
} else (classifier.===("classifierThree")) {
  val classifierThreeDs =  acutalData.filter(col("classifierThree").notEqual(lit("")).or(col("classifierThree").isNotNull()));
  writeToParquet(classifierOneDs);
}

有没有办法避免 if - else 在这堵？有没有其他方法可以做到这一点？

scala apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/61745315/how-to-execute-multiple-queries-in-parallel-and-distributed

2条答案

按热度按时间

jucafojl1#

您的问题似乎更多地是关于如何构造应用程序，而不是spark本身。实际上有两部分。
有没有办法避开这里的if-else障碍？
“避免”？在什么意义上？spark无法神奇地“发现”您的分布式处理方式。你应该帮点忙。
对于这种情况，我建议使用一个包含所有可能的过滤条件及其名称的查找表，例如。

val classifiers = Map(
  "classifierOne" -> col("classifierOne").notEqual(lit("")).or(col("classifierOne").isNotNull()),
  "classifierTwo" -> ...,
  "classifierThree" -> ...)

为了使用它，你只需遍历所有的分类器（或者根据需要查找尽可能多的分类器）。

val queries = classifiers.map { case (name, cond) =>
  spark
    .read(.....)
    .where(cond)
    .filter(col(name).notEqual(lit("")).or(col(name).isNotNull()))
}
``` `queries` 是要创建的Dataframe的集合 `writeToParquet` 如何使查询并行执行取决于您（spark将负责以分布式方式执行）。使用scala futures或其他并行api。
我认为以下几点可以让它变得很好：

queries.par.foreach(writeToParquet)

与 `queries.par.foreach` 你基本上执行所有 `writeToParquet` 同时进行。自 `writeToParquet` 执行一个Dataframe操作，以符合任何其他操作的所有spark规则的Parquet格式写入。它将运行一个spark作业（甚至可能不止一个），并使用spark机器以分布式方式执行该作业。
想想 `queries.par` 作为一种逐个执行查询的方法，无需等待前面的查询完成后再开始新的查询。强烈建议您配置公平调度模式：
在给定的spark应用程序（sparkcontext示例）中，如果多个并行作业是从不同的线程提交的，那么它们可以同时运行。
在公平共享下，spark以“循环”的方式在作业之间分配任务，这样所有作业都可以获得大致相等的集群资源份额。

赞(0）回复(0）举报 2021-05-27

oug3syen2#

所以，您需要根据分类器名称选择要检查的列，该列将作为列表传递？

val classifiers = Seq("classifierOne","classifierTwo","classifierThree");

for(classifier : classifiers) {

    val acutalData = spark.read(.....).where(<classifier conditition>)
    val classifierDs =  acutalData.filter(col(classifier).notEqual(lit("")).or(col(classifier).isNotNull()));
    writeToParquet(classifierDs);

}

在遍历列表时，无论如何都要遍历所有分类器。如果列名可以和实际的分类器名不同，则可以将其设置为 List[Classifier] ，在哪里 Classifier 有点像 case class Classifier(colName: String, classifierName: String)

赞(0）回复(0）举报 2021-05-27

我来回答

如何并行和分布式执行多个查询？

2条答案

相关问题

热门标签

最新问答