在python中增量加载大数据

svgewumm  于 2021-07-13  发布在  Java
关注(0)|答案(0)|浏览(389)

我试图用python加载一个大的(250万行)数据集。我加载这个数据集的方式是通过一个api,它在每次调用中为我提供一块数据。
问题是我不能把所有的数据都存储到内存中。理论上,我可以创建一个大的csv文件,并将每个块的数据附加到这个文件中,然后对块使用pandas read\u csv,但我想避免自己实际将文件写入磁盘。
我想知道是否有任何方法可以利用Pandas/达斯克/其他任何东西来实现这一点?也就是说,增量地构造一个大Dataframe。
附件是显示我的问题的示例代码。

import pandas as pd

def get_session_features(session_id):  # this is the mock API function
    return {'session_id': session_id, 'features': list(range(session_id))}

def get_features_session_list(session_ids):
    all_features = []
    for session_id in session_ids:
        all_features.append(get_session_features(session_id))
    return all_features

features = pd.DataFrame(get_features_session_list(list(range(100))))  # in large numbers this will cause a memory error

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题