注意:如果你想报告一个新的错误,请张贴一个新的问题和标签为“错误报告”。谢谢你!

在《快速矿工Go》中,线性回归算法使用了一些我没有选择的输入。

BillPBillP 成员职位:9新手
2020年4月编辑 产品反馈
我希望以前没有人问过我的问题。简而言之,RapidMiner Go似乎在用我没有选择的变量运行回归。一个解释。在Rapid Miner Go中,我删除了一个64列和近2900行的csv文件。我想要使用线性回归和决策树(“容易解释”)预测单个列(数字)。前两列是日期和时间。其他列是数字。我只选择了5个输入,那一页上的一个指示器说5个被选中了。我运行了回归,在Data Metrics中,它报告了我选择的5个输入和其他7个我没有选择的输入的相关性。假设它用我没有选择的7个输入来运行回归我怎么用我选择的5个输入来运行回归呢? Thanks very much. Regards, Bill
标记:
Jasmine_ varunm1
1
1票

发送到工程·最后一次更新

ic - 1842

评论

  • varunm1varunm1 主持人,职位:1207年独角兽
    2020年4月编辑
    你好@BillP

    你能交叉检查模型是否建立在你所选择的基础之上吗?您可以在模型执行后单击模型链接,然后向下滚动查看有多少带有系数的属性。



    系数检查:


    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

    Jasmine_
  • BillPBillP 成员职位:9新手
    谢谢你Varun。我按照你的建议做了(实际上我检查了系数很多很多次),有12个系数,而不是应该有5个系数。这7个额外的输入似乎是随机选择的。当我转到Model Simulator并移动与我没有选择的输入相对应的滑块时,它们将移动预测变量的一小部分,0.01或0.001%。其中一些变量的“权重”看起来很重要,但移动该变量的滑块并不会对预测值产生太大影响。这就好像回归失控了。我不知道为什么。
  • BillPBillP 成员职位:9新手
    我想这没什么关系,但它很合身。模型与实际价值的关系看起来比我预期的要好得多。
  • varunm1varunm1 主持人,职位:1207年独角兽
    这似乎怪异。你能做以下工作并提供给我你的流程吗?

    在Rapidminer Go中,一旦单击模型链接,如前所述。你在右上角有一个叫“导出”的选项。如果你点击它,你会看到一个叫做“下载过程”的选项。你能下载那个过程文件并附上这里检查吗?


    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

    lionelderkrikor
  • BillPBillP 成员职位:9新手
    谢谢。我附上了导出的模型。
  • varunm1varunm1 主持人,职位:1207年独角兽
    你好@BillP

    谢谢分享。我会看一看,如果可能的话,也试着在这里或在私人信息中分享你的数据,这样我就可以重新运行并向你解释他的现象的原因。
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

    lionelderkrikor
  • BillPBillP 成员职位:9新手
    嗨,Varun,非常感谢。你说的私人邮件是指你网站上的私人邮件吗?
  • varunm1varunm1 主持人,职位:1207年独角兽
    2020年4月编辑
    我收到你的邮件了。将来,您还可以在rapidminer社区中使用消息选项。如果你点击我的名字,它会带你到我的个人资料,你可以在右上角找到“消息选项”。您可以发送附加该文件的消息。下面的示例图像。




    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

  • BillPBillP 成员职位:9新手
    谢谢!
  • BillPBillP 成员职位:9新手
    正如您在给我的私信中所指出的,我从我没有选择的6个列标题中删除了逗号,但最终仍然在分析中结束。去掉逗号后,线性回归模型结果显示只有5个输入,估计结果很好。我希望这些关于列标题中逗号的信息能帮助那些可能有同样问题的人。然而,我认为未来任何人都不会找到这个线程,除非主题是“列标题中的逗号在选择输入时造成问题”。我有点惊讶,这事没被发现很久以前。我用逗号分隔标签和该标签的单位,如“质量流量,t/h”。下面的代码应该不会在RapidMiner Go中造成问题:“Mass flow [t/h]”非常感谢您的帮助,祝您度过愉快的一天!
    varunm1
  • BillPBillP 成员职位:9新手
    我怎么相信你能回答这个问题,瓦伦?我不能在我的评论上点“是”,因为我只是按照你的建议行事
  • varunm1varunm1 主持人,职位:1207年独角兽
    你好比尔,

    没问题,让我们继续讨论这个问题,因为我想让RM的朋友检查这个问题,也许可以开一张票来解决这个逗号问题。我不确定是否已经有一个说明说,我们不能在属性名中使用逗号,但将等待这个问题得到解决,这样就不会有未来的问题。

    @sgenzer在这里输入吗?
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

  • BillPBillP 成员职位:9新手
    如果列标题中有逗号,在检测到它们时是否应该向用户发出警告。一旦你知道它们不应该在那里,移除它们并不是那么不方便。不方便的是找到这些信息。恭喜你注意到了逗号,你真聪明。
    varunm1
  • varunm1varunm1 主持人,职位:1207年独角兽
    2020年4月编辑
    你好@sgenzer

    为了重复这个错误,请将这个CSV文件上传到RapidMiner GO,并选择“角度”作为预测变量和下图中的属性(其中没有逗号),在下一个窗口中使用默认选择,easy Interpretable和所有剩下的默认选择,并运行分析。



    一旦分析完成,我们可以观察到GLM模型也使用了未选择的属性,如下所示。



    观察到的原因与属性名中存在“,”逗号有关。我的理解是REGEX函数出现在加载和处理数据——>删除列模块被此逗号值欺骗。从属性名中删除逗号后,我就看不到这一点了。另外,如果属性名中有逗号,则自动模型中不会发生这种情况。

    我不确定是否有说明在属性名中不使用逗号。
    Test_Set.xlsx 15.6 k
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

  • sgenzersgenzer 12管理员,版主,员工,RapidMiner认证分析师,社区管理员,会员,大学教授,PM版主职位:2959年社区经理
    谢谢@varunm1我正在把这个推给Prod Feedback,并将报告给RM Go团队。
    varunm1
登录注册置评。