单片etl到分布式/可扩展解决方案和olap多维数据集到elasticsearch/solr

fzsnzjdm 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(412)

我是一个比较新的大数据处理从so社区寻找一些具体的指导。
我们目前使用的是单片/顺序etl，不用说，随着数据的增长，它是不可伸缩的。我们的选择是什么（当然是分布式和并行化，但需要详细说明）？我已经玩过hadoop，在这里使用它可能是合适的，但我想知道还有什么其他的选择吗？对于数据库开发人员来说，这可能是更容易过渡到的？
与上述问题相关的是，我们还有一个用于聚合数据的olap多维数据集。elasticsearch或solr是替代olap多维数据集的好候选吗？有人成功地做到了吗？有什么问题吗？

hadoop elasticsearch solr olap-cube etl

来源：https://stackoverflow.com/questions/30746085/monolithic-etl-to-distributed-scalable-solution-and-olap-cube-to-elasticsearch-s

1条答案

按热度按时间

shstlldc1#

我们目前正在研究的是同一种用例。
我们的方法可能会被充分利用。
步骤1：我们正在将数据从dbs复制到hdfs
第2步：pig脚本中的etl逻辑
步骤3：在聚合的表数据上建立索引以解决问题。
第四步：通过web界面搜索solr。
在我们的用例中，我们正在开发pig作业来执行转换逻辑，将它们以增量的方式存储到最终的文件夹中。稍后mr indexer工具将把数据索引到solr中。我们正在使用cloudera搜索。有什么事就告诉我。

赞(0）回复(0）举报 2021-05-30

我来回答

单片etl到分布式/可扩展解决方案和olap多维数据集到elasticsearch/solr

1条答案

相关问题

热门标签

最新问答