用于事务生成的ibmquest数据生成器参数

hts6caw3 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(513)

我需要生成用于关联规则挖掘的合成数据集，以比较我的算法与现有算法的性能。我下载了IBMQuestDataGenerator，但不知道如何使用论文中使用的相同参数生成数据集。例如，如何生成t40i10d100k.dat t40i10d1000k.dat、t10i4d100k.dat t25i10d10k.data数据集？t、i和d是什么意思？使用发电机时如何设置这些参数？
帮助输出以下内容。

hduser@master:~$ ./gen lit -help 
Command Line Options:
-ntrans number_of_transactions (in 1000's) (default: 1000)
  -tlen avg_items_per_transaction (default: 10)
  -nitems number_of_different_items (in '000s) (default: 100000)
  -npats number_of_patterns (default: 10000)
  -patlen avg_length_of_maximal_pattern (default: 4)
  -corr correlation_between_patterns (default: 0.25)
  -conf avg_confidence_in_a_rule (default: 0.75)
  -fname <filename> (write to filename.data and filename.pat)
  -ascii (default: False)

  -randseed # (reset seed used generate to x-acts; must be negative)
  -version (to print out version info)

hadoop Dataset Generator

来源：https://stackoverflow.com/questions/12927519/ibm-quest-data-generator-parameters-for-transaction-generation

1条答案

按热度按时间

llew8vvj1#

您可以在这里获得ibm generator：
http://forum.ai-directory.com/read.php?5,33
下面是字母的解释：
d：数据集中的序列数c：每个序列的平均项集数t：每个项集的平均项集数s：潜在频繁序列中的平均项集数。i：潜在频繁序列中项目集的平均大小n：数据集中不同项目的数量

赞(0）回复(0）举报 2021-06-03

我来回答

用于事务生成的ibmquest数据生成器参数

1条答案

相关问题

热门标签

最新问答