flink readcsv返回“org.apache.flink.fs.s3base.shaded.com.amazonaws.sdkclientexception:timeout waiting “用于从池连接”

kh212irz 于 2021-06-26 发布在 Flink

关注(0)|答案(0)|浏览(275)

我们使用flink1.9.0datasetapi从amazons3存储桶读取csv文件。大多数情况下都面临连接池超时。以下是flink级别的配置
一次从s3读取19708个对象，因为我们需要在整个数据集上应用逻辑。假设有20个源文件夹，例如（aaa，bbb，ccc）和多个子文件夹（aaa/4may2020/../../1.csv，aaa/4may2020/../../2.csv，aaa/3may2020/../../1.csv，aaa/3may2020/../../2.csv…），在调用readcsv之前，逻辑扫描文件夹，选择一个只有最新日期的文件夹并传递给read。对于读取操作，我们使用并行度作为“5”。但是当执行图形成时，所有20个源都聚集在一起。
在kube aws上运行，大约有10个任务管理器托管在“m5.4x大型机器”下。任务管理器docker分配有“8”个内核和“50gb”内存。
以下是试图解决这个问题，但没有运气到目前为止。真的需要一些指点和帮助来解决这个问题
启用了flink重试机制，并将故障转移作为“区域”，有时会进行重试。但即使重试，它也会断断续续地失败。
根据aws站点重新访问core-site.xml:fs.s3a.threads。max:3000，fs.s3a.连接。maximum:4500 also 有人能帮我回答以下问题吗
有没有办法检查readcsv打开的http连接
已关闭
任何了解dataset readcsv如何运行的指针都会有所帮助。
有没有办法在读取之前引入等待机制？
有没有更好的方法来解决这个问题

amazon-web-services apache-flink flink-batch

来源：https://stackoverflow.com/questions/61584936/flink-readcsv-thrown-back-with-org-apache-flink-fs-s3base-shaded-com-amazonaws

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

flink readcsv返回“org.apache.flink.fs.s3base.shaded.com.amazonaws.sdkclientexception:timeout waiting “用于从池连接”

暂无答案！

相关问题

热门标签

最新问答