首次发布:
我正在为arules() read.transactions
准备数据,需要压缩唯一的发票数据(500 k + cases),以便每个唯一的发票及其相关信息都可以放在一行中,如下所示:
Invoice001,CustomerID,Country,StockCodeXYZ,StockCode123
发票002...等
然而,数据读取重复发票为每个StockCode
像这样:
发票001、客户ID、国家/地区、股票代码XYZ
发票001,客户ID,国家/地区,库存代码123
发票002...等
我一直在尝试pivot_wider()
,然后unite()
,但它生成了285 M+大部分为空的单元格到一个LIST,我很难解决,无法写入csv或读取到arules
。我也尝试了keep(~!is.null(.)), discard(is.null), compact()
没有成功,我愿意接受任何方法来实现上述预期的结果。
然而,我觉得我应该能够使用内置的arules() read.transactions() fx
来解决它,但是当我在那里尝试不同的东西时,我也得到了各种错误。
数据来自加州大学欧文分校,可以在这里找到:https://archive.ics.uci.edu/ml/machine-learning-databases/00352/Online%20Retail.xlsx
任何帮助都将不胜感激。
library(readxl)
url <- "https://archive.ics.uci.edu/ml/machine-learning-databases/00352/Online%20Retail.xlsx"
destfile <- "Online_20Retail.xlsx"
curl::curl_download(url, destfile)
Online_20Retail <- read_excel(destfile)
trans <- read.transactions(????????????)
1条答案
按热度按时间zkure5ic1#
这一张发票“573585”有超过1.000 itens,所以它会产生acording列数,如果你只得到库存数量从发票项目...仍然我们有一点超过1.000列。