我对大规模数据分析和归档还不熟悉,所以我想问这个问题是想看看我是否用正确的方式看待问题。
当前要求:
文件系统中有大量静态文件。csv、eml、txt、json
出于存档/法律原因,我需要将这些数据存储起来
我需要提供一个统一的搜索设施的主要功能
未来要求:
我需要用额外的元数据来丰富数据文件
我需要对数据进行分析
我可能需要从api等其他来源获取数据。
我想提出一个相对简单的解决方案,以后我可以用附加的部分扩展它,而不必重写位。理想情况下,我想保持每个部分作为一个简单的服务。
由于目前搜索是关键,我对elasticsearch很有经验,我想我会使用es进行分布式搜索。
我有以下问题:
我应该将文件从静态存储复制到hadoop吗?
将数据保存在hbase而不是单个文件中有什么好处吗?
有没有一种方法,一旦一个文件被添加到hadoop中,我就可以触发一个事件,将该文件索引到elasticsearch中?
有没有一种更简单的方法来监视数百个文件夹中的新文件并将它们推送到elasticsearch?
我确信我对这个领域太过复杂了,因为我对这个领域还不熟悉。因此,我会很感激一些想法/方向,我应该探索做一些简单,但未来的证据。
感谢您的光临!
当做,
暂无答案!
目前还没有任何答案,快来回答吧!