使用pandas读取Parquet文件并在阅读时更改列的数据类型

owfi6suc  于 2023-05-12  发布在  其他
关注(0)|答案(1)|浏览(192)

如何使用pandas将数据读取为Parquet文件,并在阅读时更改列的数据类型。

import pandas as pd
product = pd.read_parquet('/datalake/test_usecase/products/')

获取错误

ArrowInvalid:无法分析字符串:类型为int64的标量。

我读的那篇专栏文章是用长字体写的。如何在使用pandas dataframe阅读时将列转换为字符串。先谢谢你了

7lrncoxx

7lrncoxx1#

如果您知道列名及其对应的类型,则可以在阅读参数中使用pyarrow.schema

import pyarrow as pa
import pyarrow.parquet as pq

schema = pa.schema([("column1", "string"), ("column2", "int64")])
df = pq.read_table("/datalake/test_usecase/products/", schema=schema).to_pandas()

我相信如果你使用pyarrow引擎,你也可以在pandas.read_parquet函数上使用相同的模式参数。

相关问题