大容量事务数据信息模式生成

thtygnil  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(323)

我试图从大量事务性数据中找出有用的数据模式。
通常情况下,我的数据是一组具有明确定义的列的记录(如发送方、接收方、金额、货币地址等-我有大约40-50个不同的列),数据量将是数百万(可能是1亿)个记录,我的目标是从这些记录中生成信息丰富的事务模式-谁购买的特定项目最多,交易量最大的接收者、费用模式、从同一发送者获得更多交易的人等。
早些时候,我计划在关系数据库(oracle/mysql)中加载数据,并编写复杂的sql来获取这些信息,但在概念验证期间,通过查看卷,它似乎没有太大的可伸缩性。
我试图用hadoop等获得更多关于分布式数据处理的信息。我刚刚开始阅读hadoop,直到我初步了解hadoop非常适合于非结构化数据处理,可能对关系数据处理没有多大用处。
任何关于开源技术的建议/建议,我都可以快速尝试。

5f0d552i

5f0d552i1#

hadoop可以用于结构化/非结构化数据处理。而且,它不像传统的rdbms那样是一个维护关系、索引的数据库。
对于数百万行,可以使用hbase或cassandra加上/不加hive进行批查询。hadoop中的批处理查询已经有一段时间了,已经很成熟了。
对于交互式查询,可以使用drill或imapala。请注意,演练开发刚刚开始,正处于孵化阶段。而imapala刚刚由cloudera发布。下面是一些关于实时引擎的有趣信息。
请注意,有许多其他的开源框架可能适合这些需求,但这里只提到其中的几个。基于详细的需求分析和不同框架的优缺点,必须选择合适的框架。

相关问题