我试图通过使用alluxio来减少spark用于读写数据的时间。
但是我发现我必须指定读取数据的路径。
我发现我可以使用hive的metatool将hive的仓库从hdfs更改为alluxio,这样我就可以通过sparksql将数据写入alluxio。但我不知道如何用sql读取alluxio的数据。
有没有办法像hive一样读/写alluxio的数据?或许可以读取alluxio的元数据并将其添加到metastore?
我试图通过使用alluxio来减少spark用于读写数据的时间。
但是我发现我必须指定读取数据的路径。
我发现我可以使用hive的metatool将hive的仓库从hdfs更改为alluxio,这样我就可以通过sparksql将数据写入alluxio。但我不知道如何用sql读取alluxio的数据。
有没有办法像hive一样读/写alluxio的数据?或许可以读取alluxio的元数据并将其添加到metastore?
1条答案
按热度按时间ssgvzors1#
您所需要做的就是修改表
location
在Spark
的元存储。您可以查看alluxio以了解详细信息,如果表位置alter花费的时间太长,请查看此线程以获取帮助。
请注意,第一次查询该表时,
Alluxio
将从ufs获取数据。数据存储在Alluxio
,以后的表查询将直接从Alluxio
.