我找到了下面的spark packagehttps://github.com/sramirez/spark-mdlp-discretization,但是否存在可以应用于以下伪代码的默认spark:
while (not eof training_data):
anomaly_res = MDL(training_data.column, target_attribute); // minimum description length
if (anomaly_res <= 0):
Drop column training_data.column;
Print 'Invalid attribute for prediction: ' + training_data.column;
基本上 MDL
函数用于确定属性的重要性,如果其结果为零或小于零,则该属性与目标属性无关。如果是的话 >
大于0,说明所研究的属性与客观属性之间存在一定的关系。
是否有任何内置或适当的库函数可以模拟上述行为?
暂无答案!
目前还没有任何答案,快来回答吧!