hadoop—使用提供并行性和高可扩展性的技术的服务体系结构

ego6inou  于 2021-06-01  发布在  Hadoop
关注(0)|答案(0)|浏览(209)

我在用一个rdbms开发一个预订系统。该系统具有多个特征(属性)的单元(产品),如:位置、尺寸[m2]、海景、空调……除此之外,还有不同时期的定价,例如2018年1月1日-2018年1月4日->30美元。。。此外,还有2017年1月8日至2018年1月6日期间的产能…可用性与产能相同。每种价格都有自己的类型:每人、每次入住、每件商品……不同年龄段有限制,额外床位……我们讨论的是10万个潜在单元。最终用户可以请求搜索多个国家/地区的所有单位,针对两名3岁和7岁的成人和儿童,时间为2018年1月1日至2018年1月8日,其中有两间客房,配有一张特大号床和一张单人床+一张加床。此外,规则引擎还可以处理其他规则。
在经典的方法中,过滤将在几个迭代中完成,试图在每个迭代中尽可能地消除。当通过管理更改了某些内容时,可以使用带有半结果的多个表,这些表必须与每次更改同步。
最近我读到了关于hadoop和storm的文章,它们具有很高的可伸缩性并提供并行性。我想知道这种技术是否适合解决所描述的问题。主要思想是编写“一个方法”,如果满足给定的过滤器搜索,则验证每个单元。稍后,这个函数很容易通过附加逻辑进行扩展。每个集群可以承担自己的部分负载。如果有10个集群,每个集群可以处理10k个单元。在cloudera教程中,使用sqoop时,rdbms中的内容已经传输到hdfs。这个过程需要一些时间,所以这似乎不是解决这个问题的好方法。给定的问题具有高度的确定性,需要立即同步,并使用新的数据进行操作。或许可以在一些流服务中使用,并并行写入hdfs和rdbms?你有没有推荐其他的技术,比如storm?有什么可能的架构,起点,来满足解决这个问题的所有需求。
请给我指出正确的方向,如果这个问题是不合适的网站。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题