我的任务是将大量数据回填到azure datalake中。不幸的是,数据源是一个restapi,它返回csv数据作为响应体。为了回填这些数据,我应该进行多个restapi调用,并将数据分成块。例如,每次获取日期范围为30天的数据。web服务器一次只能处理2个请求,它收到的任何请求都将被放入队列。返回数据的大小可以在100mb到2gb之间。
理想情况下,我希望并行调用两个restapi请求。将rest响应数据加载到spark dataframe中,然后将其作为parquet文件写入datalake。
我正在考虑如何调用两个执行器,并让每个执行器分配其余调用的一半。我不想在驱动程序节点中读取此数据,因为驱动程序可能没有足够的内存。虽然我不知道怎么做。
请让我知道,如果我在正确的轨道上或你有更好的想法来处理这个任务。
暂无答案!
目前还没有任何答案,快来回答吧!