我有大约6亿行的数据是157个csv文件。数据格式如下:
A: 8 digit int
B: 64bit unsigned int
C: 140 characters long string
D: int
我将使用csv将数据加载到mysql和hbase数据库中。我正在决定如何优化加载过程?我需要以下问题的帮助:
使用一个表存储所有数据或将其分片到多个表中
我可以做什么优化来减少加载时间?
提高数据库的整体性能?应该规范化表以存储信息吗?
我将分别使用一个m1.large ec2示例将csv加载到mysql和hbase数据库中。
=============更新===========
我使用了一个c3.8xlarge示例,用了2个小时加载了20个csv文件(总共157个),每个250mb。最后我不得不停止了,因为时间太长了。整个时间段的cpu利用率只有2%。如果有人能帮忙,那就请吧!
1条答案
按热度按时间zpf6vheq1#
对于hbase,您可以使用mysql的标准csv批量加载,您必须使用常规csv mysql加载
数据的标准化由你决定。看看您的数据结构,我认为您可能不需要规范化。