我对并行计算世界很陌生。我的团队使用amazonec2和s3来管理所有的数据,这真的为我打开了一个新的世界。
我的问题是如何估算计算成本。假设我在amazons3上有n tb的数据和k个文件(例如,我得到了0.5 tb的数据和7000个zip文件),我想遍历所有的文件,并使用pig-latin为文件的每一行执行一个regex匹配操作。
我对估算这些成本非常感兴趣:
我应该选择多少个示例来执行此任务?示例的容量是多少(主示例和map reduce示例的大小)?我可以根据n和k以及每个操作成本扣除这些容量和成本吗?
我设计了一个示例数据流:我使用一个xlarge示例作为主节点,10个medium示例作为map reduce组。这够了吗?
如何最大化这些示例的带宽以从s3获取数据?从我设计的数据流来看,s3的读取速度大约是每分钟250000000字节。到底有多少数据被传输到ec2示例?这会成为我工作流程的瓶颈吗?
1条答案
按热度按时间xxls0lw81#
我知道,这完全取决于你的需要。您需要根据要执行的计算强度来选择它。显然,您可以根据您的数据集和对该数据执行的计算量来降低成本。
2-对于多少数据?什么类型的操作?延迟/吞吐量?对于POC和小型项目来说,这似乎足够了。
3-这实际上取决于几件事,比如-你是否和你的s3端点在同一个区域,你在某个时间点碰到的特定s3节点等等。如果你需要更快的数据访问,你最好使用ebs示例,imho。您可以将ebs卷装载到ec2示例中,并将经常需要的数据保存在那里。否则,一些简单的解决方案是在服务器之间使用万兆连接,或者使用专用(昂贵)示例。但是,没有人能保证数据传输是否会成为瓶颈。有时候可能。
我不知道这是否能完全回答您的成本查询,但他们每月的计算器肯定能做到。