基于hadoop的r市场篮子分析

tmb3ates  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(373)

我试图找到一种快速的方法,对具有几百万行的交易市场篮子数据进行相关性分析。
到目前为止我所做的:
在spark和hadoop的云上创建了一个r服务器(azurehdinsight)
hdfs上加载的数据
revoscaler入门
然而,我在最后一步被卡住了。据我所知,我将无法使用revoscaler中未提供的函数来处理数据。
以下是访问hdfs上数据的代码:

bigDataDirRoot <- "/basket" 
mySparkCluster <- RxSpark(consoleOutput=TRUE)
rxSetComputeContext(mySparkCluster)
hdfsFS <- RxHdfsFileSystem(hostName=myNameNode, port=myPort)
inputFile <-file.path(bigDataDirRoot,"gunluk")

因此,我的infputfile是一个csv文件,它位于一个已经在/basket/gunluk创建的azure blob中

gunluk_data <- RxTextData(file = inputFile,returnDataFrame = TRUE,fileSystem = hdfsFS)

运行这个之后,我可以使用head(gunlukèu data)查看数据。
如何将gunluk\u数据与arules包函数结合使用。这可能吗?
如果没有,是否可以使用常规r包(即arules)处理hdfs中的csv文件?

snvhrwxg

snvhrwxg1#

在阿鲁莱斯你可以用 read.transactions 从文件中读取数据 write.PMML 写出规则/项目集。

相关问题