python 下载或使用此类大型数据集

pkln4tw6  于 2022-11-21  发布在  Python
关注(0)|答案(1)|浏览(159)

这个ML Competition dataset的尺寸非常大。
以下是我面临的一些问题:

  • 我的个人电脑不是那么强大,以处理和工作这么大的数据集。
  • 我的互联网连接下载速度没有那么快。
  • 我的驱动器只剩下10 GB,因此也无法使用Colab获取此数据集。
  • 无法将404问题的数据集上载到Kaggle。

所以,基本上,我的问题是我应该如何更有效地处理这种数据集。
我试图创建数据集与Kaggle给出链接的URL从数据集链接,但它显示:* 很遗憾,我们无法创建您的数据集。原因:发生内部错误 *。

uyhoqukh

uyhoqukh1#

使用Apache Spark框架这样的分布式系统,PySpark和Dask在处理大数据方面非常高效。

相关问题