管理报告,当我们的数据库是cassandra…spark或solr…或两者兼而有之?

zpgglvta  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(386)

我的数据库是cassandra(datastax enterprise=>linux)。由于它不支持groupby、aggregate等报告,根据它的基本原理,使用cassandra绝对不是一个好的决定。我在谷歌上搜索了一下这个赤字,发现了一些这样的结果,还有这个,还有这个。
但我真的很困惑!hive单独使用其他表。solr更适合全文搜索之类的。还有spark…它对分析很有用,但是,我不知道它最终会不会使用hadoop。
我将有许多报告,其中需要索引和分组,至少。但是我不想使用额外的表来增加开销。而且,我是.net(而不是java)开发人员,我的应用程序也基于.net框架。

6ovsh4lw

6ovsh4lw1#

我不确定你的问题是什么,你的困惑是可以理解的,因为Cassandra和dse有很多事情要做。
您正确地指出,cassandra不支持您希望用于报告的任何聚合或分组功能。
solr(dse search)用于对存储在cassandra中的数据进行即席和全文搜索。一次只能在一张table上工作。
spark(dse analytics)提供分析功能,如map reduce以及筛选和联接表的功能。这不是实时完成的,因为数据的处理和洗牌可能是昂贵的,这取决于数据负载。
spark不使用hadoop。它执行许多相同的任务,但在许多情况下效率更高,因为它允许在内存中对数据进行分布式处理。
由于您使用的是datastax enterprise,其优势在于您内置了连接到solr(dse search)和spark(dse analytics)的连接器,前者提供即席查询,后者提供数据分析。
由于我不知道你的确切报告要求,很难给你一个具体的建议。如果你能提供一些额外的细节,关于什么样的报告(计划与临时等),你将运行我可能能够帮助你更多。

相关问题