开发环境和生产环境通常在容量上是不同的(即dev集群比生产集群弱得多)。考虑到这两种环境中的数据容量测量是相似的(通过生成假数据或清除prod数据),合理的答案是“如果它在较小的集群上工作,它应该在较大的集群上工作”。但是spark应用程序呢,它的主要目标是从集群中取出最好的来安全和最快地实现结果,我如何测试最优spark参数、分区的数量和大小、广播变量的合理大小?
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!