问题

我有一个问题写一个结构到Parquet使用pyarrow。根据数据集的大小，似乎存在间歇性故障。如果我对数据集进行子采样或超级采样，它有时会编写有效的数据集，有时则不会。我看不出有什么规律。
我只写了一个专栏，用这个模式

struct<creation_date: string, 
     expiration_date: string, 
     last_updated: string, 
     name_server: string, 
     registrar: string, 
     status: string>

这似乎不是一个版本控制问题——有时写操作会成功，而且我已经能够成功地编写更复杂的数据类型，比如结构列表。
如果我取消结构，使每个属性都有自己的列，那么一切都会正常进行—这与结构的编写方式有关。
写入磁盘后，当我用 parquet-tools ，我得到错误 org.apache.parquet.io.ParquetDecodingException: Can not read value at {n} in block 0 in file 其中n是引发问题的行。那一排没有什么特别的。
当我把table放进Hive并尝试在那里探索时，我得到了一些更具启发性的东西：

Caused by: java.lang.IllegalArgumentException: Reading past RLE/BitPacking stream.
    at parquet.Preconditions.checkArgument(Preconditions.java:55)
    at parquet.column.values.rle.RunLengthBitPackingHybridDecoder.readNext(RunLengthBitPackingHybridDecoder.java:82)
    at parquet.column.values.rle.RunLengthBitPackingHybridDecoder.readInt(RunLengthBitPackingHybridDecoder.java:64)
    at parquet.column.values.dictionary.DictionaryValuesReader.readValueDictionaryId(DictionaryValuesReader.java:76)
    at parquet.column.impl.ColumnReaderImpl$1.read(ColumnReaderImpl.java:166)
    at parquet.column.impl.ColumnReaderImpl.readValue(ColumnReaderImpl.java:464)
    ... 35 more

奇怪的是，其他数据类型看起来很好——这个特定的结构有点抛出错误。以下是重现问题所需的代码：

import pandas as pd
import pyarrow as pa
import pyarrow.parquet as pq
import sys

# Command line argument to set how many rows in the dataset

_, n = sys.argv
n = int(n)

# Random whois data - should be a struct with the schema

# struct<creation_date: string,

# expiration_date: string,

# last_updated: string,

# name_server: string,

# registrar: string,

# status: string>

# nothing terribly interesting

df = pd.DataFrame({'whois':[
{'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T16:10:35', 'expiration_date': '2022-07-17T16:10:35', 'last_updated': None, 'name_server': 'ns59.domaincontrol.com\r', 'status': 'clientDeleteProhibited'},
{'registrar': 'Hongkong Domain Name Information Management Co., Limited', 'creation_date': '2020-07-17T10:28:36', 'expiration_date': '2021-07-17T10:28:36', 'last_updated': None, 'name_server': 'ns2.alidns.com\r', 'status': 'ok'},
{'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T04:04:06', 'expiration_date': '2021-07-17T04:04:06', 'last_updated': None, 'name_server': 'ns76.domaincontrol.com\r', 'status': 'clientDeleteProhibited'},
None
]})

# strangely, the bug only pops up for datasets of certain length

# When n is 2 or 5 it works fine, but 3 is busted.

df = pd.concat([df for _ in range(n)]).sample(frac=1)
print(df.tail())
table = pa.Table.from_pandas(df, preserve_index=False)
print(table)

# The write doesn't throw any errors

pq.write_table(table, '/tmp/tst2.pa')

# This read is the bit that throws the error - it's some random OSError

df = pd.read_parquet('/tmp/tst2.pa')
print(df)

更新
我尝试过改变结构中的项数（例如，只有前两个子项），当写入失败时会改变，但对于某些大小的数据仍然会间歇性失败。

我试过的东西

将Parquet地板版本升级到2.0
禁用字典写入
更改压缩设置
更改某些页面文件设置
使用定义模式而不是输入模式
取消测试结构（在本例中有效，但在我的用例中无效）

环境 `pyarrow==0.17.1` python==3.6.10 `pandas=1.0.5` ####问题

这是错误、版本不匹配还是其他原因？
如果问题在我这边，我该怎么解决？
如果这是一个错误，我应该向谁报告？箭的开发者？Parquet地板开发者？其他人？

> table.schema whois: struct<creation_date: string, expiration_date: string, last_updated: null, name_server: string, registrar: string, status: string> child 0, creation_date: string child 1, expiration_date: string child 2, last_updated: null child 3, name_server: string child 4, registrar: string child 5, status: string

df = pd.DataFrame([ {'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T16:10:35', 'expiration_date': '2022-07-17T16:10:35', 'last_updated': None, 'name_server': 'ns59.domaincontrol.com\r', 'status': 'clientDeleteProhibited'}, {'registrar': 'Hongkong Domain Name Information Management Co., Limited', 'creation_date': '2020-07-17T10:28:36', 'expiration_date': '2021-07-17T10:28:36', 'last_updated': None, 'name_server': 'ns2.alidns.com\r', 'status': 'ok'}, {'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T04:04:06', 'expiration_date': '2021-07-17T04:04:06', 'last_updated': None, 'name_server': 'ns76.domaincontrol.com\r', 'status': 'clientDeleteProhibited'}, {} ]) table = pa.Table.from_pandas(df, preserve_index=False) pq.write_table(table, '/tmp/tst2.pa') df = pd.read_parquet('/tmp/tst2.pa')

df = pd.DataFrame({'whois':[ {'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T16:10:35', 'expiration_date': '2022-07-17T16:10:35', 'last_updated': None, 'name_server': 'ns59.domaincontrol.com\r', 'status': 'clientDeleteProhibited'}, {'registrar': 'Hongkong Domain Name Information Management Co., Limited', 'creation_date': '2020-07-17T10:28:36', 'expiration_date': '2021-07-17T10:28:36', 'last_updated': None, 'name_server': 'ns2.alidns.com\r', 'status': 'ok'}, {'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T04:04:06', 'expiration_date': '2021-07-17T04:04:06', 'last_updated': None, 'name_server': 'ns76.domaincontrol.com\r', 'status': 'clientDeleteProhibited'}, None ]}) table = pa.Table.from_pandas(df, preserve_index=False).flatten() df = pd.read_parquet('/tmp/tst2.pa') df = pd.read_parquet('/tmp/tst2.pa')

df = pd.DataFrame([ {'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T16:10:35', 'expiration_date': '2022-07-17T16:10:35', 'last_updated': None, 'name_server': 'ns59.domaincontrol.com\r', 'status': 'clientDeleteProhibited'}, {'registrar': 'Hongkong Domain Name Information Management Co., Limited', 'creation_date': '2020-07-17T10:28:36', 'expiration_date': '2021-07-17T10:28:36', 'last_updated': None, 'name_server': 'ns2.alidns.com\r', 'status': 'ok'}, {'registrar': 'GoDaddy.com, LLC', 'creation_date': '2020-07-17T04:04:06', 'expiration_date': '2021-07-17T04:04:06', 'last_updated': None, 'name_server': 'ns76.domaincontrol.com\r', 'status': 'clientDeleteProhibited'}, {} ]) table_schema = pa.schema([ pa.field('creation_date', pa.string()), pa.field('expiration_date', pa.string()), pa.field('last_updated', pa.string()), pa.field('name_server', pa.string()), pa.field('registrar', pa.string()), pa.field('status', pa.string()), ]) table = pa.Table.from_pandas(df, preserve_index=False) pq.write_table(table, '/tmp/tst2.pa') df = pd.read_parquet('/tmp/tst2.pa')

1条答案

按热度按时间

8gsdolmq1#

表架构具有嵌套结构。它基本上是一个名为whois的列，包含用户定义的类型和字段creation\u date、expiration\u date等。

之前 0.17.0 ，在读取和写入Parquet地板时，不支持嵌套的udt（用户定义类型）。但这一点在这里得到了解决：https://issues.apache.org/jira/browse/arrow-1644
如果您使用的是旧版本的arrow，考虑到您的数据框中只有一列，我建议不要使用udt：

另一种选择是直接用Pandas展平您的table：

顺便说一句，您可能需要提供自己的模式，因为pandas和arrow试图猜测列的类型，但它们对空列做得不好（上次更新的\u默认为float或null）

> table.schema
creation_date: string
expiration_date: string
last_updated: double
name_server: string
registrar: string
status: string

所以你可以这样做：

赞(0）回复(0）举报 2021-06-24

bug使用pyarrow编写带有结构的Parquet文件

问题

我试过的东西

环境 `pyarrow==0.17.1` python==3.6.10 `pandas=1.0.5` ####问题

1条答案

相关问题

热门标签

最新问答

bug使用pyarrow编写带有结构的Parquet文件

问题

我试过的东西

环境 pyarrow==0.17.1 python==3.6.10 pandas=1.0.5 ####问题

1条答案

相关问题

热门标签

最新问答

环境 `pyarrow==0.17.1` python==3.6.10 `pandas=1.0.5` ####问题