如何减少spark mlib中的任务大小？

rbl8hiat 于 2021-07-09 发布在 Java

关注(0)|答案(0)|浏览(229)

我正在尝试使用apachespark（2.2.0）和java实现随机林分类器。
基本上我遵循了spark文档中的示例
出于测试目的，我使用了一个本地集群：

SparkSession spark = SparkSession
                    .builder()
                    .master("local[*]")
                    .appName(appName)
                    .getOrCreate();

我的训练/测试数据包括3万行。数据从restapi获取并转换为spark数据集。

List<PreparedWUMLogFile> logs = //... get from REST API
Dataset<PreparedWUMLogFile> dataSet = spark.createDataset(logs, Encoders.bean(PreparedWUMLogFile.class));
Dataset<Row> data = dataSet.toDF();

对于许多阶段，我得到以下警告信息：
[警告]o.a.s.s.tasksetmanager-阶段0包含非常大的任务（3002 kb）。建议的最大任务大小为100 kb。
在这种情况下，如何减少任务大小？
编辑：
更具体地说：30个阶段中有5个阶段产生这些警告信息。
stringindexer的rdd。scala:111 （两次）
向矢量索引器学习。scala:119
矢量索引器的rdd。scala:122
分类器的rdd。scala:82

Java apache-spark apache-spark-mllib spark-streaming

来源：https://stackoverflow.com/questions/47045036/how-to-reduce-task-size-in-spark-mlib

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何减少spark mlib中的任务大小？

暂无答案！

相关问题

热门标签

最新问答