python-3.x 使用aws boto 3 redshift-data API服务对aws redshift数据库进行大规模更新的最佳实践是什么？

z9zf31ra 于 2023-08-08 发布在 Python

关注(0)|答案(3)|浏览(121)

我正在使用boto3来处理红移表。我遇到了一些限制，虽然关于boto3 ExecuteStatement操作。AWS似乎有一些API限制，我似乎无法创建大型更新。我得到以下异常：
无法查询已处理存储桶列表的redshift，调用ExecuteStatement操作时出错（ValidationException）：无法处理大于100kB的查询字符串
进行大型更新的最佳实践是什么？我是否为手头的任务使用了最好的API调用？或者我可能需要调整更新以批量完成？有人有例子吗？

python-3.x

来源：https://stackoverflow.com/questions/76765288/whats-the-best-practice-for-perfoming-large-updates-to-aws-redshift-database-us

3条答案

按热度按时间

omqzjyyz1#

您不应该在Redshift上执行大型更新-对于此类用例而言，这是错误的关系数据库类型。
我花了很长时间向很多人解释同样的基础知识，所以我写了一个Redshift的介绍，在这里;
https://www.redshiftresearchproject.org/white_papers/downloads/introduction_to_the_fundamentals_of_amazon_redshift.html

赞(0）回复(0）举报 2023-08-08

uyto3xhc2#

如果SQL语句超过100K，则意味着要在SQL语句本身中传递更新的数据。在Redshift中，这是一种不好的做法，因为这些数据正在通过领导节点进行处理，编译成计算节点的可执行代码，然后发送到计算节点。这会使领导节点过载，并会显著减慢群集的速度。
应使用COPY命令将数据从S3直接加载到计算节点。这将要求您的代码为更新数据创建一个（多个）S3对象，然后发出使用这些数据更新表的SQL RS数据API调用。

赞(0）回复(0）举报 2023-08-08

zu0ti5jz3#

来自AWS支持
“ValidationException：调用ExecuteStatement操作时出错（ValidationException）：无法处理大于100 kB的查询字符串”
正如您正确提到的，您收到此错误的原因是，在使用Amazon Redshift Data API时，查询语句的最大限制为100 KB [1]。这是RedShift Data API中查询大小的硬限制，不能增加。
克服这些限制的建议是重新构建您的查询，使其符合Redshift Data API的限制。一种有用的方法是使用存储过程并在过程中插入查询以执行，或者正如您已经提到的，调整更新以批量完成。
但是，如果这对您来说不是一个可行的解决方案，则另一种解决方法是使用JDBC/ODBC客户端连接来提交查询。请注意，即使使用此选项，我们也必须记住，单个Amazon Redshift SQL语句的最大大小为16 MB [2]。
[1]数据API注意事项https://docs.aws.amazon.com/redshift/latest/mgmt/data-api.html#data-api-calling-considerations
[2]单个Amazon Redshift SQL语句https://docs.aws.amazon.com/redshift/latest/dg/c_redshift-sql.html的最大大小

赞(0）回复(0）举报 2023-08-08

我来回答

python-3.x 使用aws boto 3 redshift-data API服务对aws redshift数据库进行大规模更新的最佳实践是什么？

3条答案

相关问题

热门标签

最新问答