我们正在尝试将一个数据集从sqlite数据库导入到python中。由于数据集相当大,我们希望使用考拉而不是Pandas来实现这一点。
由于管理员对笔记本电脑设置的限制,我们无法直接使用考拉从sqlite数据库文件导入数据集。因此,我们尝试用pandas批量导入数据集,并将每批数据转换为考拉。在10批40万行之后(即400万行之后),python在执行时出现以下错误 ks.from_pandas: "java.lang.OutOfMemoryError: Java heap space"
. 请参阅下面的完整错误和代码。
我们试图用命令增加堆空间 java -Xmx4g
以及 java -Xmx6g
在命令提示符下。但是,这会产生相同的中断。你知道是什么导致了这个错误以及如何解决这个问题吗?
代码:
connected_database = self.create_connection(database)
count = 0
for df in pd.read_sql_query(query_to_execute, connected_database, chunksize=400000):
count += 1
if count == 1:
ks_df_aggregated = ks.from_pandas(df)
else:
ks_df_aggregated = ks_df_aggregated.append(ks.from_pandas(df))
暂无答案!
目前还没有任何答案,快来回答吧!