类别

版本

ID3(RapidMiner Studio Core)

概要

该操作员从名义数据中学习了一个未经修复的决策树以进行分类。这个决策树学习者的工作类似于昆兰的ID3。

描述

ID3(迭代二分法3)是一种用于生成由Ross Quinlan发明的决策树的算法。ID3是C4.5算法的前体。非常简单,ID3从固定的示例中构建了决策树。所得树用于对未来样本进行分类。给定示例集的示例具有多个属性,每个示例都属于类(例如是或否)。决策树的叶节点包含类名称,而非叶子节点是决策节点。决策节点是一个属性测试,每个分支(到另一个决策树)是属性的可能值。ID3使用功能选择启发式来帮助其确定哪些属性进入决策节点。所需的启发式可以由标准范围。

ID3算法可以总结如下:获取所有未使用的属性并计算其选择标准(例如信息增益)选择选择标准具有最佳值的属性(例如,最小熵或最大信息增益)使节点包含该属性

ID3通过培训实例的属性进行搜索,并提取最能分开给定示例的属性。如果属性完美地分类了训练集,则ID3停止;否则,它会递归地在n(其中n =属性的可能值的n =分区子集的可能值数量)上以获得其最佳属性。该算法使用贪婪的搜索,这意味着它选择了最佳属性,并且再也不会重新考虑早期选择。

ID3的一些主要好处是:

  • 可以理解的预测规则是根据培训数据创建的。
  • 在相对较小的时间内建造一棵短树。
  • 它只需要测试足够的属性,直到所有数据分类为止。
  • 查找叶节点使测试数据可以修剪,从而减少测试数量。

ID3在某些情况下可能有一些缺点,例如

  • 如果测试了小样本,数据可能过度拟合或过度分类。
  • 一次仅测试一个属性以做出决定。

输入

  • 训练集(数据表)

    此输入端口期望一个示例集。它是随附的示例过程中生成的名义数据运算符的输出。该操作员无法处理数值属性。其他操作员的输出也可以用作输入。

输出

  • 模型(决策树)

    决策树是从此输出端口传递的。现在,可以将此分类模型应用于可见的数据集,以预测标签属性。

  • 示例集(数据表)

    给出的作为输入的示例集将传递,而不会通过此端口更改输出。这通常用于在其他运算符中重复使用相同的示例集,或在结果工作区中查看示例集。

参数

  • 标准此参数指定将选择属性进行分裂的标准。它可以具有以下值之一:
    • 信息_GAIN:计算所有属性的熵。选择具有最小熵的属性进行分裂。该方法偏见选择具有大量值的属性。
    • gain_ratio:这是信息增益的变体。它调整每个属性的信息增益,以允许属性值的广度和均匀性。
    • gini_index:这是示例集杂质的量度。在所选属性上分裂可减少所得子集的平均GINI指数。
    • 准确性:为拆分选择这样的属性,以最大化整个树的准确性。
    范围:选择
  • minimal_size_for_split节点的大小是其子集中的示例数。根节点的大小等于示例集中的示例总数。只有那些节点是分裂的,其大小大于或等于分裂的最小尺寸范围。范围:整数
  • minimal_leaf_size叶节点的大小是其子集中的示例数。该树的生成方式使每个叶节点子集至少具有最小的叶子大小实例数。范围:整数
  • minimal_gain在将节点分解之前,计算出节​​点的增益。如果节点的增益大于最小收益。最小增益的较高价值会导致拆分较少,因此较小的树。过高的值将完全防止分裂,并生成带有单个节点的树。范围:真实

教程流程

ID3入门

要了解树木的基本术语,请研究决策树操作员的示例过程。

生成的名义数据运算符用于生成具有名义属性的示例集。应当牢记ID3操作员无法处理数值属性。这里插入一个断点,以便您可以查看示例集。您可以看到示例集具有三个属性,每个属性具有三个可能的值。ID3运算符应用于此示例集,其中所有参数的默认值。结果决策树模型已交付到过程的结果端口,可以在结果工作区中看到。