性能:循环值vs循环示例

CharlieFirpoCharlieFirpo 成员职位:48因素二世
2019年7月编辑 帮助
亲爱的!

我必须处理一个包含100,000个示例的ExampleSet。为此,我使用Loop操作符,并在其中处理示例。在第一次迭代中,我处理了第一个例子,在第二次迭代中,我处理了第二个例子,以此类推。为此,我在循环操作符中使用了一个过滤器示例。在Filter Example操作符中,我可以使用Loop操作符的宏来过滤出正确的示例。
如果我使用循环值,那么我使用一个值类型的宏,所以在过滤器示例中有一个比较值的条件(类型是文本,值大约20-50个字符长)。如果我使用循环示例,那么循环宏是一个索引类型的宏,在Filter Example操作符中,比较发生在数字/整数之间(当然我需要一个ID来做这件事)。

所以我认为Loop Example在性能上更有效。我说的对吗?是否有任何测试或手册、教程来显示循环值和循环示例操作符之间的性能差异?
当然,我可以为自己做一些测试,但一些官方的参考将是感激的!

谢谢你! !

答案

  • MariusHelfMariusHelf RapidMiner认证专家,会员职位:1869年独角兽
    如果你想循环遍历每个操作符,可以将循环示例与Filer示例范围操作符(而不是Filter示例)结合使用。该操作符甚至更快,因为它不比较任何东西,而只是根据数据中的位置提取示例——它甚至不需要id。

    另一方面,如果你想在一个属性的不同值上循环,比如在一个label属性中存储的不同类上循环,就应该使用循环值。

    最好的问候,
    马吕斯
  • CharlieFirpoCharlieFirpo 成员职位:48因素二世
    谢谢你!
    我应该在哪里使用过滤器示例范围?循环内的例子?

    在循环中,我有几个操作符和所有迭代中的所有操作符需求。循环的输入是一个包含100.000个示例(行)的exampleSet,我必须一个接一个地处理它们。所以在一次迭代中,我只需要处理一个例子。使用过滤器示例范围,我如何选择应该在迭代中的循环中处理哪个示例?
    如果我没有在循环中使用Filter Example,那么exampleSet的所有示例将在一次迭代中处理。因为我有10万个例子,所以我将有10万个迭代。
  • MariusHelfMariusHelf RapidMiner认证专家,会员职位:1869年独角兽
    你好,

    是的,将它放在循环示例中,对于这两个值输入%{example}(或者无论你如何命名循环示例的iteration_macro)。

    最好的问候,
    马吕斯
登录注册置评。