商业智能的Spark

ylamdve6 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(307)

目前我正在做一个项目，在商业智能和大数据领域，两个领域，在所有诚实我是新的，非常绿色。
我计划使用mongodb构建一个hive数据仓库，并将其与pentaho这样的商业智能平台连接起来。在研究过程中，我遇到了spark，并对它的shark模块感兴趣，因为它具有内存中的功能，并且在执行查询时提高了性能。
我知道我可以将hive连接到pentaho，但我想知道的是，我是否可以在它们之间使用shark查询来提高性能？如果不是的话，是否有人知道任何其他bi平台会允许这样做？
正如我所说，我在这方面是相当新的，所以请随意纠正我，因为有一个很好的机会，我有一些概念混淆，说了一些白痴。

hadoop Hive apache-spark pentaho business-intelligence

来源：https://stackoverflow.com/questions/21858615/spark-in-business-intelligence

2条答案

按热度按时间

6uxekuva1#

首先，鲨鱼正在被星火sql吸收。sparksql提供了一个jdbc/odbc连接器。这将允许您将它与大多数现有平台集成。

赞(0）回复(0）举报 2021-06-03

huus2vyu2#

我认为应该使用hive构建hive数据仓库，或者使用mongodb构建mongodb数据仓库。我不明白你要怎么把它们混在一起，但我还是会尽量回答这个问题的。
通常，为bi工具配置一个jdbc驱动程序（例如hive），bi工具使用这个jdbc驱动程序获取数据。驱动程序如何从db中获取数据对于bi工具来说是完全透明的。
因此，您可以使用hive、shark或jdbc驱动程序附带的任何其他db。
我可以这样总结您的选择：
配置单元：最完整的功能集，也是最兼容的工具。可以在普通数据上使用，也可以将数据etl成orc格式，从而提高性能。
Impala ：号称比Hive快，但功能不全。可以在普通数据上使用，或者，您可以将数据etl为其parquet格式，从而提高性能。
鲨鱼：尖端，还不是主流。性能取决于哪些百分比的数据可以放入集群上的ram中。

赞(0）回复(0）举报 2021-06-03

我来回答

商业智能的Spark

2条答案

相关问题

热门标签

最新问答