创建自定义配置单元输入和输出格式的最佳用例？

new9mtju 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(309)

只是想了解创建自定义配置单元inputformat和output格式的最佳用例是什么？
如果你们中有人创建了一个自定义的输入/输出格式，请告诉我什么时候决定开发？
谢谢，

来源：https://stackoverflow.com/questions/18770306/hadoop-hive-best-use-cases-to-create-a-custom-hive-input-and-output-formats

2条答案

按热度按时间

avkwfej41#

Hive使用的各种文件格式之一是rcfile、parquet和orc文件格式。这些文件格式是列式文件格式。这样做的好处是，在读取大型表时，不必读取和处理所有数据。大多数聚合查询只引用少数列，而不是所有列。这大大加快了处理速度。
其他应用程序可以存储、读取和处理自定义输入格式，其中数据的存储方式可能与csv结构不同。这些可能是二进制文件或任何其他结构。
您必须按照文档创建输入格式。有关详细信息，请访问以下链接：custominputformat with hive

赞(0）回复(0）举报 2021-06-03

rqdpfwrv2#

要使配置单元varchar的行为类似于oracle varchar2：
在进行oracle到hadoop的迁移时，我们遇到了oracle中的一个设置：如果varchar2列的数据长度超过表ddl中定义的值，oracle将拒绝该记录。
例如：假设在oracle和hadoop中有一列'name'，最大长度为10字节
名称varchar2（10字节）-oracle
名称varchar（10）-hive
如果name field=“lengthgreaterthanten”的值为0，则oracle将拒绝该记录，因为oracle在写入时应用了架构。而hive读取“lengthgrea”，即10个字符，因为hive只是在从hdfs读取记录时应用模式。
为了解决这个问题，我们提出了一种自定义输入格式，通过分隔符上的拆分来检查varchar字段的长度。如果长度大于指定的长度，它将继续到下一个记录。否则，如果长度小于或等于指定的长度，则将记录写入hdfs。
希望这有帮助。谢谢

赞(0）回复(0）举报 2021-06-03

我来回答

创建自定义配置单元输入和输出格式的最佳用例？

2条答案

相关问题

热门标签

最新问答