hive—在hadoop中接收数据后的标准进程

cnjp1d6j 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(330)

我正在将数据从oracle导入hadoop，然后我想将这些数据保存到hive中。
在将数据摄取到hadoop中之后，需要遵循哪些步骤？
如何在接收的数据中执行数据清理或错误检查？

hadoop Hive sqoop apache-pig

来源：https://stackoverflow.com/questions/39198728/standard-process-after-ingesting-data-in-hadoop

2条答案

按热度按时间

gtlvzcf81#

1. 在将数据摄取到hadoop中之后，需要遵循哪些步骤？

您不需要自己动手（将数据导入hadoop，然后传输到hive）
根据文件，
你只需要加上 --hive-import 在导入命令中。
更改配置单元表
默认情况下，配置单元中使用的表名与源表的表名相同。可以使用 --hive-table 选项。
覆盖配置单元表
如果配置单元表已存在，则可以指定 --hive-overwrite 选项指示必须替换配置单元中的现有表
@sachin提到了数据中空值的处理。你可以查看文档了解更多细节

2. 如何在接收的数据中执行数据清理或错误检查？

我假设“数据清理”是指在hadoop中清理数据。
将数据导入hdfs或省略此步骤后，sqoop将生成一个包含 CREATE TABLE 使用配置单元的类型定义列的操作，以及 LOAD DATA INPATH 语句将数据文件移到配置单元的仓库目录中。
数据被移动到配置单元。所以，临时hdfs位置没有数据。
疑难解答文档中提到了一些常见问题。你可以检查基差。

赞(0）回复(0）举报 2021-05-30

2q5ifsrm2#

您可以使用sqoop和名为oraoop的optimize连接器将数据直接从oracle摄取到配置单元表。对于数据清理，我假设您的意思是处理空值，如果是这种情况，您可以使用sqoop提供的不同选项，如

--null-string <null-string>     
--null-non-string <null-string>

赞(0）回复(0）举报 2021-05-30

我来回答

hive—在hadoop中接收数据后的标准进程

2条答案

1. 在将数据摄取到hadoop中之后，需要遵循哪些步骤？

2. 如何在接收的数据中执行数据清理或错误检查？

相关问题

热门标签

最新问答