从Aurora导出大型几何体到csv并加载到红移

kmbjn2e3  于 12个月前  发布在  其他
关注(0)|答案(1)|浏览(72)

各位程序员,
我需要导出一个表,其中包含一个几何列持有大数据集从极光csv,然后加载到红移使用复制命令。从另一个表中导出数据,该表也包含一个几何列,该列包含较小的数据集,使用上述方法没有问题。
我发现更大的几何体的问题是数据被分割成2行或更多行,我似乎不能绕过然后在redshift中使用复制命令加载这样的数据。
以下是我使用dbeaver和pgAdmin所做的尝试
1.将分隔符从“,”更改为“|“或选项卡,然后导出csv仍在分割几何体。
1.将csv更改为json,但redshift仅接受使用csv,text或shapefile加载的几何图形。
1.尝试将几何体转换为EWKT[1],然后使用不同的分隔符导出,最终csv仍在分割几何体数据。
1.尝试导出带有文本的表格,但一个70 M的文件变成了1.9G。不是很喜欢这个
截至2023-08-11在使用dbeaver/pgAdmin检查导出的csv中被破坏的单元格的长度后。它们小于Excel单元格可以容纳的最大字符长度32,767个字符[2]。我发现它与导出工具相关。
所以今天早上我用python连接到aurora postgres来导出和保存查询几何结果的几何格式(二进制)作为一个dataframe,然后保存在csv中。
现在有我发现的:
1.先前较短的(<32,767)现在完全在小区中。
1.那些大于32,767的长的呢?看起来csv不再是存储长度超过32,767的几何图形的选项。
1.尝试将几何图形转换为aws文档[1]提到的ewkt格式。还是比32767长
所以我的问题是,你会建议在不同的VPC网络中的不同帐户中将包含大量几何图形的少量空间数据从极光转移到红移,而不必考虑我一直在阅读的其他选项,联邦查询等。在这个时间点。
因为这是POC的一部分,我们希望尽快完成,所以最快的方法更好。
已经挣扎了2天,并期待着一些新的投入。
太感谢了
[1][https://docs.aws.amazon.com/redshift/latest/dg/copy-usage_notes-spatial-data.html](https://docs.aws.amazon.com/redshift/latest/dg/copy-usage_notes-spatial-data.html) [2] https://support.microsoft.com/en-gb/office/excel-specifications-and-limits-1672b34d-7043-467e-8e27-269d656771c3

iq0todco

iq0todco1#

我刚刚通过我出色的经理联系了AWS支持。DMS是这种情况下推荐的。我只是想在这里分享答案。

相关问题