如何在apachespark中计算最小描述长度?

wecizke3  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(242)

我找到了下面的spark packagehttps://github.com/sramirez/spark-mdlp-discretization,但是否存在可以应用于以下伪代码的默认spark:

while (not eof training_data): 
    anomaly_res = MDL(training_data.column, target_attribute); // minimum description length 
    if (anomaly_res <= 0): 
        Drop column training_data.column; 
        Print 'Invalid attribute for prediction: ' + training_data.column;

基本上 MDL 函数用于确定属性的重要性,如果其结果为零或小于零,则该属性与目标属性无关。如果是的话 > 大于0,说明所研究的属性与客观属性之间存在一定的关系。
是否有任何内置或适当的库函数可以模拟上述行为?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题