我正在尝试使用apachespark(2.2.0)和java实现随机林分类器。
基本上我遵循了spark文档中的示例
出于测试目的,我使用了一个本地集群:
SparkSession spark = SparkSession
.builder()
.master("local[*]")
.appName(appName)
.getOrCreate();
我的训练/测试数据包括3万行。数据从restapi获取并转换为spark数据集。
List<PreparedWUMLogFile> logs = //... get from REST API
Dataset<PreparedWUMLogFile> dataSet = spark.createDataset(logs, Encoders.bean(PreparedWUMLogFile.class));
Dataset<Row> data = dataSet.toDF();
对于许多阶段,我得到以下警告信息:
[警告]o.a.s.s.tasksetmanager-阶段0包含非常大的任务(3002 kb)。建议的最大任务大小为100 kb。
在这种情况下,如何减少任务大小?
编辑:
更具体地说:30个阶段中有5个阶段产生这些警告信息。
stringindexer的rdd。scala:111 (两次)
向矢量索引器学习。scala:119
矢量索引器的rdd。scala:122
分类器的rdd。scala:82
暂无答案!
目前还没有任何答案,快来回答吧!