我目前正在尝试使用apachespark创建一个大数据处理web应用程序,我已经成功地将其安装在hdinsight集群上。我曾经用c语言编写过连接到我的集群的mapreduce程序,并且能够通过输入我的帐户名、存储密钥等来运行连接到集群的应用程序。。。我环顾了一下web,似乎用apachespark提交作业的唯一方法是使用rdp连接到集群,但是我没有办法将它合并到web应用中(很容易)。我对处理集群/大数据还不熟悉)。是否可以以运行mapreduce作业时的类似方式连接到集群?
我也在想,也许可以在mapreduce中编写这个,因为我已经在集群的上下文中了。那有可能吗?
1条答案
按热度按时间iq0todco1#
如果您是通过脚本操作安装spark,那么spark特定端口不能在集群外部打开。不过,您可以通过vnet使用spark。如果在端点和集群之间设置vnet,则可以使用本机spark协议进行远程作业提交/查询。也可以使用oozie
您还可以使用最新发布的预览spark集群和提交的c#作业进行调查。