如何找到数据集中最重要的特征?

Christos_KarapapasChristos_Karapapas 成员职位:25因素二世
我有一个csv格式的数据集,有500多列,我已经将它导入到一个数据库中,每一列都标记为多项式,因为它们都包含不同类型的信息,现在,我想找到其中最重要的一列。

到目前为止,我已经成功地获得了一个包含特征及其权重的表,使用“X”操作符的权重,但问题是,在结果中,我在不同的行中分别获得了每个特征值。相反,我想要的是根据特征进行聚合,并为每个特征设置一个权重。我尝试使用聚合运算符,但没有运气。

举个例子,这是我得到的:
feature01-value05、重量:0,71
feature01-value13、重量:0,69
feature09-value03,体重:0,55

相反,我想要这样的东西:
feature01、重量:0 7
feature09,体重:0,55

最佳答案

  • Christos_KarapapasChristos_Karapapas 成员职位:25因素二世
    解决方案接受
    非常感谢莱昂内尔!

    我终于想明白了。我得到了一个ArrayIndexOutOfBoundsException的权重信息增益操作符由于一些缺失的值在我的数据集,所以我尝试用各种(错误的)操作符来克服这个问题。其中之一就是从名义到数字,这显然导致了这种行为。一旦我用(显然适合这项工作)替换缺失值操作符替换它,一切都按预期工作。
    lionelderkrikor

答案

  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽
    @chris_skg

    我无法得到你得到的结果…
    这是我通过应用得到的结果信息增益权重的运算符高尔夫球数据集:



    为了让我们重现你所观察到的并理解正在发生的事情,你能分享一下吗:
    -您的XML进程或文件进程(。rmp文件)
    -你的资料

    问候,

    莱昂内尔


  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽
    好吧,@chris_skg

    很高兴你终于找到了解决办法!

    问候,

    莱昂内尔
    Christos_Karapapas
登录注册置评。