如何使汽车模型进行交叉验证?

wanglu2014wanglu2014 成员职位:19因素二世
2019年6月编辑 帮助

谢谢大家。在汽车模型中,导入的数据按一定比例分成训练和验证两部分。但是,为了提高模型的可靠性,我们是否可以将分裂过程修改为交叉验证?

答案

  • Telcontar120Telcontar120 版主,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1630年独角兽

    当然,只要打开您想要的模型的流程,然后将流程从分离验证更改为交叉验证,然后重新运行。

    布莱恩·T。
    Lindon合资企业
    乐鱼体育官方app来自认证RapidMiner专家的数据科学咨询
    sgenzer dbabrauskaite Balazs_Hamornik
  • 开罗的开罗的 成员职位:1贡献我
    编辑2019年3月
    对不起@Telcontar120,我也有同样的问题,不明白从哪里把拆分验证改成交叉验证?我很抱歉,但我仍然是RapidMiner的初学者。我发现了分裂的数据块你是这个意思吗?如果是这样,如何分割数据,例如离开,或k=4在k倍交叉验证?
  • Telcontar120Telcontar120 版主,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1630年独角兽
    不,我的意思是,一旦您有了流程,您可以选择分离验证操作符,并将其替换为交叉验证操作符。这可以通过右键单击拆分验证操作符来实现,或者手动复制新的交叉验证操作符,将拆分验证中的操作符复制到交叉验证中,然后删除拆分验证操作符。同样的结果。在这两种情况下,只需确保正确连接了内部操作符。如果需要再次检查,请参阅帮助中的交叉验证教程。
    布莱恩·T。
    Lindon合资企业
    乐鱼体育官方app来自认证RapidMiner专家的数据科学咨询
    dbabrauskaite
  • rfuentealbarfuentealba 版主,RapidMiner认证分析师,会员,大学教授职位:568独角兽
    你好,

    今天我向一位新同事展示了RapidMiner autommodel。与《泰坦尼克号》数据集,如果选择a逻辑回归(这是我记得的情况,但可能还有很多其他情况)没有所谓的分割验证操作符。相反,该流程执行分割数据运算符,并应用性能运算符作为最后一个,我称之为手册 执行验证的方法。

    在这种情况下,并不像更改操作符那么简单。(别人)。

    我的建议是重新安排过程并理解它是如何工作的,因为虽然autommodel是数据科学项目的一个很好的开始,但它仍然是一个开始:我们的项目仍然缺乏适当的文档(它仍然不能为我们的领域专业知识生成文档),删除样板步骤(如果我们的数据集没有文本,为什乐鱼体育官方app么要处理文本?),并调整过程以适应我们的用例。

    我知道,这不是那种神奇地解决我们问题的快乐的答案,必须经历这个过程对RapidMiner的新手来说尤其令人沮丧,但请专注于RapidMiner 要有一个#noblackboxes的理念,让人们在几秒钟内从零到60,通过访问这个过程。

    @Telcontar120你是不是和我一样有似曾相识的感觉?这不是我们初次见面时的话题吗?)

    希望这有助于

    罗德里戈。
    开罗的 dbabrauskaite Telcontar120 yyhuang
  • IngoRMIngoRM 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,社区管理员,rm研究员,成员,大学教授职位:1751年RM创始人
    Yip没错。顺便说一下,我们在AM中做性能评估的方法实际上是非常聪明的。为什么交叉验证是一个更健壮的估计器的原因是,它减少了对测试集的依赖,对训练过的模型来说,它“更容易”或“更难”。我们在AM中做了类似的事情,对大部分数据训练模型,然后创建多个保留集,同时在平均之前去除异常值。在超过1000行的80多个数据集中,我只发现了两个例子,在这两个例子中,这种方法与完全交叉验证创建的性能之间的差异在统计上是显著的。因此,对于所有实际目的,特别是在数据科学项目的早期阶段,AM的验证方法与完全交叉验证一样好,但速度快5 - 10倍。乐鱼体育官方app
    不要误解我的意思,我不是在反对交叉验证,恰恰相反。我只是想指出,我们提出了一种实用的方法,可以更好地平衡运行时和估计鲁棒性,根据我的经验,这对大多数应用程序都足够有效。
    只是我的2摄氏度,
    Ingo
    varunm1 dbabrauskaite SGolbert sgenzer
  • varunm1varunm1 主持人,职位:1207年独角兽
    编辑2019年3月
    @IngoRM这看起来很棒。对于巨大的数据集,这种方法在AM中就像宝石一样工作,而且根据您的测试似乎也很可靠。我有点困惑,为什么你在随机分割数据的过程中使用坚持集。现在很明显。
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

    IngoRM
  • SGolbertSGolbert RapidMiner认证分析师,会员职位:344独角兽
    @IngoRM

    很高兴知道你彻底调查了这件事,我相信我现在更加。

    我认为,一旦在AM中找到了适当的模型,就应该用新流程中的所有数据训练一个新模型,可能还需要进行超参数调优。

    问候,
    塞巴斯蒂安。

    IngoRM sgenzer
  • IngoRMIngoRM 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,社区管理员,rm研究员,成员,大学教授职位:1751年RM创始人
    实际上,我们正在研究汽车模型的一个新的部署特性,以简化再培训等过程。请继续关注;-)
    SGolbert sgenzer 阴
  • 阴 成员职位:14贡献我
    @IngoRM我看到你的帖子是2019年的,这已经实施了吗?
登录注册置评。