归纳法(RapidMiner Studio Core)
剧情简介
该操作符根据给定的示例集的信息增益学习一组经过修剪的规则。描述
规则归纳操作符的工作原理类似于名为“重复增量修剪以减少错误”的命题规则学习器(RIPPER, Cohen 1995)。从不太常见的类开始,算法迭代地增长和删除规则,直到没有积极的示例留下或错误率大于50%。
在增长阶段,对于每个规则,贪婪的条件被添加到规则中,直到它完美(即100%准确)。该过程尝试每个属性的每个可能值,并选择具有最高信息增益的条件。
在修剪阶段,对于每条规则,任何前项的最终序列都使用修剪度量进行修剪市盈率(p + n).
规则集学习器经常被比作决策树学习器。规则集的优点是它们易于理解,可在一阶逻辑中表示(易于在Prolog等语言中实现),并且可以轻松地向其中添加先验知识。规则集的主要缺点是它们与训练集大小的伸缩能力差,并且在处理有噪声的数据时存在问题。RIPPER算法(这个运算符实现的)在很大程度上克服了这些缺点。决策树的主要问题是过拟合,即模型在训练集上工作得很好,但在验证集上表现不佳。减少错误剪枝(REP)是一种试图克服过拟合的技术。经过一段时间的各种改进和增强,REP变成了IREP, IREP*和RIPPER。
决策树中的剪枝是一种将不增加决策树辨别能力的叶节点去除的技术。这样做是为了将过度特定或过度拟合的树转换为更一般的形式,以增强其对未见数据集的预测能力。在规则集上也有类似的修剪概念。
输入
- 训练集(数据表)
这个输入端口需要一个ExampleSet。它是所附示例过程中的离散频率操作符的输出。其他运算符的输出也可以用作输入。
输出
- 模型(决策规则模型)
规则模型从这个输出端口交付。这个模型现在可以应用于未知的数据集。
- 榜样(数据表)
作为输入的exampleeset通过该端口传递而不改变为输出。这通常用于在进一步的操作符中重用相同的ExampleSet,或者在Results Workspace中查看ExampleSet。
参数
- 标准此参数指定选择属性和数值分割的标准。它可以有以下值之一:
- information_gain:计算所有属性的熵。选择熵最小的属性进行拆分。这种方法倾向于选择具有大量值的属性。
- accuracy:这样的属性被选择用于将规则集的准确性最大化的分割。
- sample_ratio此参数指定用于生长和修剪的训练数据的样本比例。范围:真正的
- 清净此参数指定所需的纯度,即覆盖子集中主类的最小比例,以便考虑该子集的纯度。范围:真正的
- minimal_prune_benefit此参数指定为了修剪利益,必须超过未修剪利益的最小数量。范围:真正的
- use_local_random_seed表示是否局部随机种子应该用于随机化。范围:布尔
- local_random_seed此参数指定局部随机种子.此参数仅在使用局部随机种子参数设置为true。范围:整数
教程的过程
规则归纳操作符介绍
使用Retrieve操作符加载'Golf'数据集。应用频率离散算子将数值属性转换为标称属性。这样做是因为规则学习器通常在名义属性上表现良好。离散频率操作符的箱数参数被设置为3。所有其他参数均使用默认值。这里插入了一个断点,以便您可以在应用Rule Induction操作符之前查看ExampleSet。接下来应用规则归纳操作符。所有参数均使用默认值。生成的模型连接到流程的结果端口。在流程执行之后,可以在Results Workspace中看到规则集(RuleModel)。