python 将numpy数组保存为较大对象的一部分？

2fjabf4q 于 2023-01-19 发布在 Python

关注(0)|答案(1)|浏览(128)

我正在做一些与图像相关的ML任务，作为预处理的结果，我正在创建一个包含重要元数据属性的类的对象，沿着一个3d numpy图像数据数组。我想减少这些对象的大小，并提高它们的读写速度。
目前，对象是使用pickle保存为文件的，但这似乎不是最有效的方法。dill库应该在保存numpy项方面更好，但由于我需要处理许多文件，总体性能较低，这似乎没有帮助。
我也听说过numpy.save方法，但我不确定如何将其作为pickle过程的一部分来实现，我使用pickle.dump和pickle.load来pickle项目。

python

来源：https://stackoverflow.com/questions/75165012/saving-numpy-arrays-as-a-part-of-larger-objects

1条答案

按热度按时间

xqkwcwgp1#

pickle依赖于每个对象的“pickle”方法，无论对象是列表、dict还是其他对象。numpy数组的pickle格式与www.example.com基本相同np.save。因此速度和文件大小应该相似。相反，np.save使用pickle来格式化非数组参数或包含对象的数组（注意save/load中的allow_pickle参数）。

In [57]: import pickle
In [58]: x = np.ones((100,100,100))
In [59]: np.save('test.npy',x)
In [60]: !dir test.npy
 Volume in drive C is Windows
 Volume Serial Number is 4EEB-1BF0

 Directory of C:\Users\paul

01/18/2023  12:57 PM         8,000,128 test.npy
               1 File(s)      8,000,128 bytes
               0 Dir(s)  18,489,139,200 bytes free

In [61]: astr=pickle.dumps(x)
In [62]: len(astr)
Out[62]: 8000163

我看到一些ML项目使用HDF5/h5py来保存模型和数据，但我没有太多的关注，我回答了h5py的问题，但还没有在速度和压缩很重要的大型项目中尝试过。
多个numpy数组也可以用np.savez保存（在压缩版本中），这会将每个数组保存为一个npy文件。
np.save是保存数组最有效的方法。它基本上由一个小的头块和数组数据缓冲区的字节副本组成。除非数组有很多相同的值，否则压缩空间很小。

赞(0）回复(0）举报 2023-01-19

我来回答

python 将numpy数组保存为较大对象的一部分？

1条答案

相关问题

热门标签

最新问答