使用pandas读取Parquet文件并在阅读时更改列的数据类型

owfi6suc 于 2023-05-12 发布在其他

关注(0)|答案(1)|浏览(192)

如何使用pandas将数据读取为Parquet文件，并在阅读时更改列的数据类型。

import pandas as pd
product = pd.read_parquet('/datalake/test_usecase/products/')

获取错误

ArrowInvalid：无法分析字符串：类型为int64的标量。

我读的那篇专栏文章是用长字体写的。如何在使用pandas dataframe阅读时将列转换为字符串。先谢谢你了

pandas

来源：https://stackoverflow.com/questions/75836754/read-parquet-file-using-pandas-and-change-the-datatype-of-a-column-while-reading

1条答案

按热度按时间

7lrncoxx1#

如果您知道列名及其对应的类型，则可以在阅读参数中使用pyarrow.schema。

import pyarrow as pa
import pyarrow.parquet as pq

schema = pa.schema([("column1", "string"), ("column2", "int64")])
df = pq.read_table("/datalake/test_usecase/products/", schema=schema).to_pandas()

我相信如果你使用pyarrow引擎，你也可以在pandas.read_parquet函数上使用相同的模式参数。

赞(0）回复(0）举报 2023-05-12

我来回答

使用pandas读取Parquet文件并在阅读时更改列的数据类型

1条答案

相关问题

热门标签

最新问答