我有一点日志[200字节/天]。我想要的是使用这些日志中的某些数据来构建一些统计数据,并通过web界面显示出来。在对这些文件进行预处理之后,我得到了4-5个这样的文件:
hadooper@ubuntu:/usr/local/hadoop$ du -h part-r-00000
4.0K part-r-00000
hadooper@ubuntu:/usr/local/hadoop$ cat part-r-00000
201508042015 444335775
201508042020 563
201508042025 320787123
.....
我打算把这些东西至少保存一年,也许更多。还不确定。
我的问题是在哪里存储和检索数据更好:文件还是数据库?
我计划使用rails作为后端。至于现在,似乎把所有东西都存储在文件中是个不错的选择。但从长远来看,可能有一些缺点我现在还不知道。
我相信有很多有经验的人能解决类似的问题。非常感谢您的想法和帮助
1条答案
按热度按时间i34xakig1#
如果只尝试存储文件,请将其存储为平面/压缩文件或添加到数据库中,然后将其作为备份文件从数据库中导出。从数据库准备备份将确保以后需要数据时更容易导入。
如果您需要一直对它们执行查询,请将它们存储在数据库中,因为查询数据库更快(因为索引),也更容易(因为ddl、dml等的可用性)
如果您担心安全性,请加密文件或加密数据库,然后导出。
如果有什么案子我忘了处理,请告诉我。