如何在Parquet格式中实现模式的改变

0x6upsns  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(341)

只是我们面临的一个设计问题。
我有一个Parquet格式的配置单元外部表,包含以下列:

describe payments_user
col_name,data_type,comment
('amount_hold', 'int', '')
('id', 'int', '')
('transaction_id', 'string', '')
('recipient_id', 'string', '')
('year', 'string', '')
('month', 'string', '')
('day', 'string', '')
('', None, None)
('# Partition Information', None, None)
('# col_name            ', 'data_type           ', 'comment             ')
('', None, None)
('year', 'string', '')
('month', 'string', '')
('day', 'string', '')

我们每天都会得到数据,然后动态地将这些数据吸收到年、月和日的分区中。因此,如果要更改源端的数据,即添加新列并发送批处理文件,那么我们如何接收数据。我知道avro有这个能力,但为了减少返工,如何才能在Parquet地板格式实现这一点?
如果avro是什么程序?

jpfvwuh4

jpfvwuh41#

您要寻找的是模式演化,它由hive支持,与avro相比有一些限制。
Parquet格式中的模式演化

相关问题