我使用的是azuredatabricks,不需要r语言扩展。但是我在驱动程序日志中发现了很多与r相关的初始化输出。
即使在设置了示例池之后,集群的初始化也花费了惊人的时间。当我开始调查时,我发现在初始化过程中发生了很多事情,其中一些我并不关心。群集中甚至有与r相关的进程正在启动:
21/03/26 15:46:38 INFO RDriverLocal: 5. RDriverLocal.e6356ff0-aab3-4d12-a0df-047a3e8f9753: launching R process ...
21/03/26 15:46:38 INFO RDriverLocal: 6. RDriverLocal.e6356ff0-aab3-4d12-a0df-047a3e8f9753: cgroup isolation disabled, not placing R process in REPL cgroup.
21/03/26 15:46:38 INFO RDriverLocal: 7. RDriverLocal.e6356ff0-aab3-4d12-a0df-047a3e8f9753: starting R process on port 1100 (attempt 1) ...
21/03/26 15:46:38 INFO RDriverLocal: 8. RDriverLocal.e6356ff0-aab3-4d12-a0df-047a3e8f9753: setting up BufferedStreamThread with bufferSize: 100.
21/03/26 15:46:40 INFO RDriverLocal: 9. RDriverLocal.e6356ff0-aab3-4d12-a0df-047a3e8f9753: R process started with RServe listening on port 1100.
21/03/26 15:46:41 INFO RDriverLocal: 10. RDriverLocal.e6356ff0-aab3-4d12-a0df-047a3e8f9753: starting interpreter to talk to R process ...
有没有人能告诉我有没有什么办法可以让这一切都失效?如果这是可能的话,我猜这将节省10秒左右。这听起来不算多,但当你整天从azure的adf管道启动作业集群时,想想执行无用的初始化操作要花费多少时间,会有点沮丧。
1条答案
按热度按时间biswetbf1#
我收到了databricks团队的确认,他们目前没有办法在databricks集群上禁用r语言。
我认为很不幸,每次启动作业集群时,我们都要多等几秒钟。听起来不算多,但总而言之。难怪集群需要这么长时间才能启动。。。databricks似乎堆积了一堆没人想要或需要的东西。