hive—在hadoop中接收数据后的标准进程

cnjp1d6j  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(331)

我正在将数据从oracle导入hadoop,然后我想将这些数据保存到hive中。
在将数据摄取到hadoop中之后,需要遵循哪些步骤?
如何在接收的数据中执行数据清理或错误检查?

gtlvzcf8

gtlvzcf81#

1. 在将数据摄取到hadoop中之后,需要遵循哪些步骤?

您不需要自己动手(将数据导入hadoop,然后传输到hive)
根据文件,
你只需要加上 --hive-import 在导入命令中。
更改配置单元表
默认情况下,配置单元中使用的表名与源表的表名相同。可以使用 --hive-table 选项。
覆盖配置单元表
如果配置单元表已存在,则可以指定 --hive-overwrite 选项指示必须替换配置单元中的现有表
@sachin提到了数据中空值的处理。你可以查看文档了解更多细节

2. 如何在接收的数据中执行数据清理或错误检查?

我假设“数据清理”是指在hadoop中清理数据。
将数据导入hdfs或省略此步骤后,sqoop将生成一个包含 CREATE TABLE 使用配置单元的类型定义列的操作,以及 LOAD DATA INPATH 语句将数据文件移到配置单元的仓库目录中。
数据被移动到配置单元。所以,临时hdfs位置没有数据。
疑难解答文档中提到了一些常见问题。你可以检查基差。

2q5ifsrm

2q5ifsrm2#

您可以使用sqoop和名为oraoop的optimize连接器将数据直接从oracle摄取到配置单元表。对于数据清理,我假设您的意思是处理空值,如果是这种情况,您可以使用sqoop提供的不同选项,如

--null-string <null-string>     
--null-non-string <null-string>

相关问题