如何使用pandas将数据读取为Parquet文件,并在阅读时更改列的数据类型。
import pandas as pd product = pd.read_parquet('/datalake/test_usecase/products/')
获取错误
ArrowInvalid:无法分析字符串:类型为int64的标量。
我读的那篇专栏文章是用长字体写的。如何在使用pandas dataframe阅读时将列转换为字符串。先谢谢你了
7lrncoxx1#
如果您知道列名及其对应的类型,则可以在阅读参数中使用pyarrow.schema。
import pyarrow as pa import pyarrow.parquet as pq schema = pa.schema([("column1", "string"), ("column2", "int64")]) df = pq.read_table("/datalake/test_usecase/products/", schema=schema).to_pandas()
我相信如果你使用pyarrow引擎,你也可以在pandas.read_parquet函数上使用相同的模式参数。
1条答案
按热度按时间7lrncoxx1#
如果您知道列名及其对应的类型,则可以在阅读参数中使用pyarrow.schema。
我相信如果你使用pyarrow引擎,你也可以在pandas.read_parquet函数上使用相同的模式参数。