在我的公司,我们用新旧机器的组合拼凑出了一个非常异质的Yarn+Spark簇。由于各个机器的统计数据差异很大,我希望能够在更大的机器上启动多个执行器。设置 --num-executors 高于群集中的计算机数的计算机不工作。是否有其他设置我需要更改以启用此功能,或者只是不可能?
--num-executors
4dc9hkyq1#
传递--executor cores选项。这应该是~4才能获得良好的性能:http://www.datarpm.com/resources/achieving-optimal-performance-with-apache-spark1-5/这将在4核机器上启动一个执行器,在16核机器上启动4个执行器。
1条答案
按热度按时间4dc9hkyq1#
传递--executor cores选项。这应该是~4才能获得良好的性能:http://www.datarpm.com/resources/achieving-optimal-performance-with-apache-spark1-5/
这将在4核机器上启动一个执行器,在16核机器上启动4个执行器。