这个ML Competition dataset的尺寸非常大。
以下是我面临的一些问题:
- 我的个人电脑不是那么强大,以处理和工作这么大的数据集。
- 我的互联网连接下载速度没有那么快。
- 我的驱动器只剩下10 GB,因此也无法使用Colab获取此数据集。
- 无法将404问题的数据集上载到Kaggle。
所以,基本上,我的问题是我应该如何更有效地处理这种数据集。
我试图创建数据集与Kaggle给出链接的URL从数据集链接,但它显示:* 很遗憾,我们无法创建您的数据集。原因:发生内部错误 *。
这个ML Competition dataset的尺寸非常大。
以下是我面临的一些问题:
所以,基本上,我的问题是我应该如何更有效地处理这种数据集。
我试图创建数据集与Kaggle给出链接的URL从数据集链接,但它显示:* 很遗憾,我们无法创建您的数据集。原因:发生内部错误 *。
1条答案
按热度按时间uyhoqukh1#
使用Apache Spark框架这样的分布式系统,PySpark和Dask在处理大数据方面非常高效。