我们有基于ambari的hadoop集群,因为thrift服务器的性能很差,所以我们决定用presto来替换它,因为我们当前的hadoop集群有以下机器960个数据节点机器(基于redhat7操作系统)
关于presto的几句话presto(或prestodb)是一个开源的分布式sql查询引擎,专为针对任意大小数据的快速分析查询而设计。它支持两种非关系源,例如hadoop分布式文件系统(hdfs),
我们安装了新的presto服务器如下:首先,我们安装了操作系统(redhat7),总共13台机器,1台用于presto协调器,12台用于presto工人
安装操作系统后,我们成功地安装了presto(presto协调器+presto工作者)
现在我们被困在如何在presto集群和hadoop集群之间进行集成的问题上
我将给出有关配置单元连接器(hive.properties)的简短示例
我们有以下变量hive.config.resources=/etc/hadoop/conf/core site.xml,/etc/hadoop/conf/hdfs-site.xml
因为这个文件位于数据节点机器上,当然不在presto worker机器上,所以我假设我们需要将这些文件从一个数据节点机器复制到presto workers机器上
我就在这里吗?
1条答案
按热度按时间rdlzhqv91#
通常不需要配置
hive.config.resources
允许presto与hdfs集群通信。尝试在没有该配置的情况下使用presto。仅当您有特殊要求(如hadoop kms)时才配置它。要配置它,请将适当的hadoop配置文件复制到presto机器(协调器和工作器),然后设置
hive.config.resources
指向这些文件。有关详细信息,请参阅配置单元连接器文档。