我正在读取存储在文件夹中的s3数据,时间戳为2020/07/11/hh/mm/ss/file1.json。我可以读取文件并将它们发送到kinesis,但我需要按时间戳的顺序(fifo-queue??)发送,并以33k条记录/秒或200万条/分钟的计量速率进行。当前代码是python的,但生成的数据是无序的。你对如何做到这一点有什么想法吗?度量的速率表示使用并行/线程来控制生成的速率。我是否需要获得一定数量的文件夹(使用线程)来一次从s3提取数据,然后将其发送到fifo队列,然后让使用者从q读取数据并将其发送到kinesis?
蒂亚,
暂无答案!
目前还没有任何答案,快来回答吧!