如何自定义从mysql到hbase的sqoop导入序列化？

vwkv1x7d 于 2021-06-09 发布在 Hbase

关注(0)|答案(1)|浏览(426)

目前，我有一个mysql表“email\u history”，如下所示。

email_address          updated_date    modification
janet.ford@mmch.org    2014-10-20      NEW:confidence::75|NEW:sources::cif
r.wagland@soton.ac.uk  2014-10-20      NEW:confidence::75|NEW:sources::cif|NEW:user::r.wagland

字段“email\u address”和“modification”是varchar，“updated\u date”是date。
导入到hbase时，行键需要是email\u address连接字节数组的日期。值需要修改，但“：”需要转换为字节0x1f，“|”需要转换为字节0x1e。以下是此格式的示例。

janet.ford@mmch.org\x00\x00\x01KS,\x7F\x00        column=c:v, timestamp=1423082506912, value=new\x1Fconfidence\x1F75\x1Enew\x1Fsources\x1Fcif

默认情况下，sqoop通过将每个字段转换为其字符串表示形式将所有值序列化为hbase，然后在目标单元格中插入该字符串的utf-8字节。
但是字符串无法表示0x1e这样的字符，因此默认的序列化不能满足我的要求。有谁能告诉我如何定制序列化并将mysql表中的内容转换为所需的字节格式，从而放入hbase？

mysql hbase sqoop Import serialization

来源：https://stackoverflow.com/questions/28467111/how-can-i-customize-sqoop-import-serialization-from-mysql-to-hbase

1条答案

按热度按时间

qybjjes11#

您可以用char（30）表示0x1e（向上箭头），用char（31）表示0x1f（向下箭头），因此，您可以提供一个自由查询并执行替换。这应该能实现你想要的目标：

sqoop import --connect jdbc:mysql://localhost:3306/[db] \
--username [user] --password [pwd] \
--query 'SELECT CONCAT(email_address,updated_date) as id, REPLACE(REPLACE(modification,":",CHAR(31),uri),"|",CHAR(30),uri) as value FROM email_history WHERE $CONDITIONS' \
--split-by id \
--hbase-create-table --hbase-table [your_hbase_table] \
--hbase-row-key id --column-family [your_hbase_column_family]

只需相应地替换括号中的代码，然后离开 $CONDITIONS 原样（需要）
关于将复合行键的日期部分存储为byte[]我支持将其存储为4 byte int（posix时间戳）之类的内容。。。遗憾的是，您不能这样做：所有内容都将作为字节编码的utf8字符串导入hbase，但除了行键稍长一点之外，这应该不是什么问题。如果必须使用这种精确的格式，那么就必须实现自己的作业，以便使用行键或列值的自定义序列化从mysql读取数据并写入hbase。

赞(0）回复(0）举报 2021-06-09

我来回答

如何自定义从mysql到hbase的sqoop导入序列化？

1条答案

相关问题

热门标签

最新问答