决策树(多路)(RapidMiner工作室核心)
剧情简介
该运算符生成一个多路决策树。描述
决策树(多路)操作符是一个嵌套操作符,即它有一个子过程。子流程必须有一个树学习器,即一个期望ExampleSet并生成树模型的操作符。为了应用这个运算符,您需要对子流程有基本的了解。为了对子流程有基本的了解,请研究子流程操作符的文档。
如果我们只有分类属性,我们可以使用任何类似c4.5的算法来获得多路决策树,尽管如果我们的数据集包含连续属性,我们通常会获得二叉树。在数值属性上使用二进制分割意味着所涉及的属性应该能够在从树的根到它的叶的路径中出现几次。虽然在将决策树转换为一组规则时可以简化这些重复,但它们会使构建的树更加复杂,不必要地更深入,而且对人类专家来说更难理解。连续属性上的非二叉分割使得树更容易理解,而且在某些领域似乎也能得到更精确的树。
与其他方法相比,将数据表示为Tree具有更有意义和更容易解释的优点。目标是创建一个分类模型,该模型基于ExampleSet的几个输入属性预测标签的值。树的每个内部节点对应于一个输入属性。内部节点的边的数量等于相应输入属性的可能值的数量。每个叶节点表示标签的一个值,给定的输入属性值由从根到叶的路径表示。通过研究决策树算子的示例过程,可以很容易地理解这种描述。
输入
- 训练集(数据表)
这个输入端口需要一个ExampleSet。它是附加的示例流程中的Retrieve操作符的输出。其他运算符的输出也可以用作输入。
输出
- 模型(决策树)
决策树是从这个输出端口交付的。这个分类模型现在可以应用于不可见的数据集,用于预测标签属性。
- 榜样(数据表)
通过此端口传递作为输入的ExampleSet而不更改为输出。这通常用于在进一步的操作符中重用相同的ExampleSet,或者在结果工作区中查看ExampleSet。
教程的过程
决策树(多路)算子介绍
使用Retrieve操作符加载Golf数据集。这里插入一个断点,以便您可以查看ExampleSet。决策树(多路)操作符应用于这个示例集。决策树算子应用于决策树(多路)算子的子过程中。生成的树连接到流程的结果端口,可以在Results Workspace中看到它。