postgresql—管理近3.5 pb/3500 tb的数据

9fkzdhlc  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(529)

关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。

去年关门了。
改进这个问题
我正在寻找一个机会,我们将不得不管理几乎3.5 pb/3500 tb的数据。据我所知,青梅似乎是个不错的选择。我说,我正在努力寻找一个好的资源,让我周围的硬件要求的想法。以下是我们构建此模型的基本输入:
1). 数据将以2 gbps(千兆字节)的速率传入2)。数据相当简单,只有一个包含15个奇数列的大表。每个列/记录将接近2kb(3)。我需要索引6列。这些列中的每一列都是varchar/string(第4列)。这个用例更多的是写密集型,更少的是读密集型。这个想法是每天处理一组15-20个批处理作业。实时/近实时分析不是必须的。这更多是出于报道目的。5). 数据是时间序列数据,需要一个月的时间。因此,超过一个月的数据将被清除。
到目前为止,我所知道的是greenplum建议每个主机使用2x8核(线程)和256gbram。另外,每个主机通常应该查看24个硬盘插槽。如果我看每个4tb的ESA,我应该能够承载96 tb/主机。如果我假设一个简单的线性外推,我将看到(3500/96)37个节点。
现在我知道这不是简单的/线性的计算。因此,我想知道是否有任何计算器/资源/准则来调整数据库集群的大小。我还想知道,不给服务器提供专用磁盘,而是使用单个san存储是否可以。每台服务器都可以有2x10g链路,以确保节点和san之间的数据传输方便。
非常感谢。
阿比

unguejic

unguejic1#

由于greenplum的体系结构,您可能不需要索引。您只需要使用您的设计建议的良好分区。
利用集群进行数据转换也是一个好主意,也是greenplum的一个常见用例。
到目前为止,我所知道的是greenplum建议每个主机使用2x8核(线程)和256gbram。
所谓“线程”,我假设你指的是“段”,你的说法并不完全准确。每个主机的段数取决于每个段主机除了并发级别之外还有多少ram、内核和磁盘性能。
我将使用8gb的ram,4核,每段100 mb/s的磁盘性能。而100 mb/s的磁盘性能绝对处于低端。这将是一个平衡的行为,使每个主机的段数正确。
一种方法是使用tpcds基准测试。https://github.com/pivotalguru/tpc-ds 您可以运行基准测试,获取结果,重新初始化集群以使每个主机使用更多/更少的段,然后再次运行测试。您还可以在测试中设置最符合预期的并发级别。
我还想知道,不给服务器提供专用磁盘,而是使用单个san存储是否可以。每台服务器都可以有2x10g链路,以确保节点和san之间的数据传输方便。
san的配置通常考虑iops,而不是greenplum需要的吞吐量。有了这么多的数据,使用das通常会更好。一些云供应商为其san解决方案提供了相当好的吞吐量,但最终您必须运行许多小型节点才能获得所需的总体吞吐量。

相关问题