Pandas Dataframe 的序列化

速度 * 的最佳方法并不是 * 可移植性 * 或 * 保真度 * 的最佳方法。Pickle快速可靠，但不具有可移植性或归档安全性。HFD具有可移植性和归档安全性，但速度较慢，只能存储具有特定格式和结构的DataFrame。
- 摘要：**
对于简单表格的共享和存档，允许对格式进行一些更改：csv、excel或json，具体取决于应用程序。
要实现完美的保存和恢复，但缺乏可移植性或归档安全性：pickle
存档：hdf，但并不是所有的表都能以这种格式便携或无损地保存。您可能需要重新构造东西并转换一些类型。
- 详细信息：**我们需要pandas已经支持的方法，DataFrame类中的.to_format方法和pandas模块中的read_format方法。在Pandas 1.5.2中，这些方法是csv、excel、feather、gbq、hdf、html、json、orc、parquet、pickle、sql、stata、xml。
excel和csv具有很高的可移植性，非常适合简单的表，复杂的表和数据结构无法承受往返。
json也是高度可移植的，但是将改变表中的数据。NaN将被转换为None，numpy数组可以转换为嵌套列表，等等。
我将跳过feather、gbq、orc、parquet、sql和stata。这些是与DataTable格式不完全兼容的特定格式。它们不是很容易移植，就是不太灵活。我还将跳过html，它不能忠实地保存和恢复DataFrame的所有细节。
pickle是最容易用于忠实保存/恢复的。但是，它不具有可移植性，并且不具有归档安全性。预计pickle文件在将来的版本中将无法正确加载。
这就剩下hdf了，这应该是一个可实现的安全和高度可移植的格式，许多科学应用程序读取或存储hdf文件，然而，python仍然需要pickle任何不能转换为ctype的dataframe内容。

赞(0）回复(0）举报 2023-02-02

我来回答

Pandas Dataframe 的序列化

4条答案

相关问题

热门标签

最新问答