我有一个大数据类的测试,我必须用“更小”的数据集做一些大数据分析。我已经把我的东西弄清楚了。我在ubuntu16.04上以独立模式安装了hadoop2.8.1和spark2.2.0(我使用pyspark构建了一个程序)。我真的很乐意一个人去做我的事情。
问题是,我的一些朋友正在努力配置所有这些,我想“为什么我不做我自己的小集群与我的同学”。所以我在寻求建议。
我的笔记本电脑有12GB内存和intel core i5。
我有一个大数据类的测试,我必须用“更小”的数据集做一些大数据分析。我已经把我的东西弄清楚了。我在ubuntu16.04上以独立模式安装了hadoop2.8.1和spark2.2.0(我使用pyspark构建了一个程序)。我真的很乐意一个人去做我的事情。
问题是,我的一些朋友正在努力配置所有这些,我想“为什么我不做我自己的小集群与我的同学”。所以我在寻求建议。
我的笔记本电脑有12GB内存和intel core i5。
1条答案
按热度按时间rks48beu1#
如果我理解正确的话,您的朋友在独立模式下设置spark时会遇到问题(这意味着根本没有集群,只有本地计算)。我不认为建立一个他们可以使用的集群可以消除他们将面临的复杂性。或者他们想建立一个集群?因为spark的独立模式真的不需要太多配置。
另一种方法是使用预配置的vm,每个人都可以单独使用。要么自己准备,要么有不同供应商的沙盒,例如cloudera和hortonworks。