决策树桩(RapidMiner Studio Core)
概要
该操作员只学会一个只有一个单个拆分的决策树。该操作员可以应用于名义数据集和数值数据集。描述
决策树桩操作员用于生成只有一个单个拆分的决策树。所得树可用于对看不见的示例进行分类。当使用Adaboost操作员等操作员加强时,该操作员可以非常有效。给定示例集的示例具有多个属性,每个示例都属于类(例如是或否)。决策树的叶节点包含类名称,而非叶子节点是决策节点。决策节点是一个属性测试,每个分支(到另一个决策树)是属性的可能值。有关决策树的更多信息,请研究决策树操作员。
输入
- 训练集(数据表)
此输入端口期望一个示例集。它是附件示例过程中检索操作员的输出。其他操作员的输出也可以用作输入。
输出
- 模型(决策树)
只有一个单一拆分的决策树从此输出端口传递。现在,可以将此分类模型应用于可见的数据集,以预测标签属性。
- 示例集(数据表)
给出的作为输入的示例集将传递,而不会通过此端口更改输出。这通常用于在其他运算符中重复使用相同的示例集,或在结果工作区中查看示例集。
参数
- 标准此参数指定将选择属性进行分裂的标准。它可以具有以下值之一:
- 信息_GAIN:计算所有属性的熵。选择具有最小熵的属性进行分裂。该方法偏见选择具有大量值的属性。
- gain_ratio:这是信息增益的变体。它调整每个属性的信息增益,以允许属性值的广度和均匀性。
- gini_index:这是示例集杂质的量度。在所选属性上分裂可减少所得子集的平均GINI指数。
- 准确性:选择这样的属性进行拆分,以最大化整棵树的准确性。
- minimal_leaf_size叶节点的大小是其子集中的示例数。该树的生成方式使每个叶节点子集至少具有最小的叶子大小实例数。范围:整数
教程流程
决策树桩操作员简介
要了解树木的基本术语,请研究决策树操作员的示例过程。
使用检索操作员加载“高尔夫”数据集。这里插入一个断点,以便您可以查看示例集。决策树桩操作员应用于此示例集。标准参数设置为“信息增益”,最小叶子大小参数设置为1。结果决策树模型已连接到过程的结果端口,并且可以在结果工作区中看到。您可以看到该决策树只有一个分差。