postgresql—管理近3.5 pb/3500 tb的数据

9fkzdhlc 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(529)

关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗？**通过编辑这篇文章更新这个问题，使它只关注一个问题。

去年关门了。
改进这个问题
我正在寻找一个机会，我们将不得不管理几乎3.5 pb/3500 tb的数据。据我所知，青梅似乎是个不错的选择。我说，我正在努力寻找一个好的资源，让我周围的硬件要求的想法。以下是我们构建此模型的基本输入：
1). 数据将以2 gbps（千兆字节）的速率传入2）。数据相当简单，只有一个包含15个奇数列的大表。每个列/记录将接近2kb（3）。我需要索引6列。这些列中的每一列都是varchar/string（第4列）。这个用例更多的是写密集型，更少的是读密集型。这个想法是每天处理一组15-20个批处理作业。实时/近实时分析不是必须的。这更多是出于报道目的。5). 数据是时间序列数据，需要一个月的时间。因此，超过一个月的数据将被清除。
到目前为止，我所知道的是greenplum建议每个主机使用2x8核（线程）和256gbram。另外，每个主机通常应该查看24个硬盘插槽。如果我看每个4tb的ESA，我应该能够承载96 tb/主机。如果我假设一个简单的线性外推，我将看到（3500/96）37个节点。
现在我知道这不是简单的/线性的计算。因此，我想知道是否有任何计算器/资源/准则来调整数据库集群的大小。我还想知道，不给服务器提供专用磁盘，而是使用单个san存储是否可以。每台服务器都可以有2x10g链路，以确保节点和san之间的数据传输方便。
非常感谢。
阿比

hadoop postgresql cassandra bigdata greenplum

来源：https://stackoverflow.com/questions/58234476/manage-almost-3-5-pb-3500-tb-of-data

1条答案

按热度按时间

unguejic1#

由于greenplum的体系结构，您可能不需要索引。您只需要使用您的设计建议的良好分区。
利用集群进行数据转换也是一个好主意，也是greenplum的一个常见用例。
到目前为止，我所知道的是greenplum建议每个主机使用2x8核（线程）和256gbram。
所谓“线程”，我假设你指的是“段”，你的说法并不完全准确。每个主机的段数取决于每个段主机除了并发级别之外还有多少ram、内核和磁盘性能。
我将使用8gb的ram，4核，每段100 mb/s的磁盘性能。而100 mb/s的磁盘性能绝对处于低端。这将是一个平衡的行为，使每个主机的段数正确。
一种方法是使用tpcds基准测试。https://github.com/pivotalguru/tpc-ds 您可以运行基准测试，获取结果，重新初始化集群以使每个主机使用更多/更少的段，然后再次运行测试。您还可以在测试中设置最符合预期的并发级别。
我还想知道，不给服务器提供专用磁盘，而是使用单个san存储是否可以。每台服务器都可以有2x10g链路，以确保节点和san之间的数据传输方便。
san的配置通常考虑iops，而不是greenplum需要的吞吐量。有了这么多的数据，使用das通常会更好。一些云供应商为其san解决方案提供了相当好的吞吐量，但最终您必须运行许多小型节点才能获得所需的总体吞吐量。

赞(0）回复(0）举报 2021-05-27

我来回答

postgresql—管理近3.5 pb/3500 tb的数据

1条答案

相关问题

热门标签

最新问答