类别

版本

决策树桩(RapidMiner Studio Core)

概要

该操作员只学会一个只有一个单个拆分的决策树。该操作员可以应用于名义数据集和数值数据集。

描述

决策树桩操作员用于生成只有一个单个拆分的决策树。所得树可用于对看不见的示例进行分类。当使用Adaboost操作员等操作员加强时,该操作员可以非常有效。给定示例集的示例具有多个属性,每个示例都属于类(例如是或否)。决策树的叶节点包含类名称,而非叶子节点是决策节点。决策节点是一个属性测试,每个分支(到另一个决策树)是属性的可能值。有关决策树的更多信息,请研究决策树操作员。

输入

  • 训练集(数据表)

    此输入端口期望一个示例集。它是附件示例过程中检索操作员的输出。其他操作员的输出也可以用作输入。

输出

  • 模型(决策树)

    只有一个单一拆分的决策树从此输出端口传递。现在,可以将此分类模型应用于可见的数据集,以预测标签属性。

  • 示例集(数据表)

    给出的作为输入的示例集将传递,而不会通过此端口更改输出。这通常用于在其他运算符中重复使用相同的示例集,或在结果工作区中查看示例集。

参数

  • 标准此参数指定将选择属性进行分裂的标准。它可以具有以下值之一:
    • 信息_GAIN:计算所有属性的熵。选择具有最小熵的属性进行分裂。该方法偏见选择具有大量值的属性。
    • gain_ratio:这是信息增益的变体。它调整每个属性的信息增益,以允许属性值的广度和均匀性。
    • gini_index:这是示例集杂质的量度。在所选属性上分裂可减少所得子集的平均GINI指数。
    • 准确性:选择这样的属性进行拆分,以最大化整棵树的准确性。
    范围:选择
  • minimal_leaf_size叶节点的大小是其子集中的示例数。该树的生成方式使每个叶节点子集至少具有最小的叶子大小实例数。范围:整数

教程流程

决策树桩操作员简介

要了解树木的基本术语,请研究决策树操作员的示例过程。

使用检索操作员加载“高尔夫”数据集。这里插入一个断点,以便您可以查看示例集。决策树桩操作员应用于此示例集。标准参数设置为“信息增益”,最小叶子大小参数设置为1。结果决策树模型已连接到过程的结果端口,并且可以在结果工作区中看到。您可以看到该决策树只有一个分差。