类别

版本

子群发现(RapidMiner Studio Core)

剧情简介

此操作符执行穷举子组发现。子群发现的目标是找到描述足够大且统计上不寻常的总体子集的规则。

描述

该操作符通过详尽地生成假设来发现子组(或归纳规则集)。生成是通过逐步细化空假设(不包含字面量)来完成的。因此,该任务的循环遍历搜索空间的深度,即生成的假设的字面数。参数指定搜索的最大深度最大深度参数。此外,还可以通过指定最小覆盖范围来修剪搜索空间最小覆盖参数)或仅使用给定数量的具有最高覆盖率的假设。从这些假设出发,根据用户的偏好推导出规则。该操作符允许分别推导正规则和负规则,或者通过推导两个规则或仅推导由于假设涵盖的示例而最有可能的规则来组合这两个规则(因此:该子集的实际预测)。控件可以控制此行为规则生成参数。所有生成的规则都在exampleeset上由用户指定的实用程序函数(由效用函数参数),并存储在最终规则集中,如果:

  • 它们超过了最小实用程序阈值(由最小实用程序参数指定)或
  • 它们属于k条最佳规则(其中k由k条最佳规则参数指定)。
方法指定所需的行为模式参数。

子群发现的问题定义如下:给定一个个体的总体和这些个体的属性,我们感兴趣的是找到统计上最有趣的总体子群,例如,尽可能大,具有最不寻常的统计(分布)特征。在子组发现中,规则具有以下形式类>-二,其中子组发现感兴趣的属性是类值哪个规则出现在结论规则和先行规则中气孔导度是从描述训练实例的特征中选择的特征(属性值对)的组合。由于规则是从标记的训练实例中诱导出来的(如果兴趣属性保持,则标记为正,否则标记为负),子组发现的过程旨在发现具有给定兴趣属性的选定目标个体群体的属性。从这个意义上说,子群体发现是一种监督学习。然而,在许多方面,子组发现是描述性归纳的一种形式,因为任务是发现数据中单个有趣的模式。

规则学习最常用于分类规则学习和关联规则学习。分类规则学习是预测归纳(或监督学习)的一种方法,旨在构建一组用于分类和/或预测的规则,而关联规则学习是描述性归纳(非分类归纳或无监督学习)的一种形式,旨在发现定义数据中有趣模式的单个规则。

让我们强调子组发现(作为预测归纳和描述性归纳的交叉任务)和分类规则学习(作为预测归纳的一种形式)之间的区别。标准规则学习的目标是生成模型,每个类一个,由规则集组成,根据训练示例描述中出现的属性描述类特征。相反,子组发现旨在发现个人规则或感兴趣的“模式”,这些规则或模式必须以明确的符号形式表示,并且必须相对简单,以便被潜在用户识别为可操作的。此外,标准分类规则学习算法由于使用覆盖算法构建规则集,不能很好地解决子组发现的任务,阻碍了分类规则归纳方法在子组发现中的适用性。子组发现通常被视为不同于分类,因为它解决了不同的目标(发现有趣的总体子组,而不是最大化诱导规则集的分类准确性)。

输入

  • 训练集(数据表)

    这个输入端口需要一个ExampleSet。它是附带的示例过程中生成标称数据操作符的输出。其他运算符的输出也可以用作输入。

输出

  • 模型(规则集)

    规则集从这个输出端口交付。

  • 榜样(数据表)

    作为输入给出的ExampleSet不会通过该端口更改为输出。这通常用于在进一步的操作符中重用相同的ExampleSet,或者在结果工作区中查看ExampleSet。

参数

  • 模式发现方式。
    • minimum_utility:如果选择了这个选项,那么如果规则超过了最小实用程序参数指定的最小实用程序阈值,那么规则将存储在最终规则集中
    • k_best_rules:如果选择了该选项,则如果规则属于k个最佳规则(其中k由k个最佳规则参数指定),则将它们存储在最终规则集中。
    选择范围:
  • utility_function此参数指定所需的实用程序函数。选择范围:
  • min_utility此参数指定最小实用程序。时,此参数有用模式参数设置为“最小效用”。如果规则超过了此参数指定的最小实用程序阈值,则将这些规则存储在最终规则集中。范围:真正的
  • k_best_rules此参数指定所需最佳规则的数量。时,此参数有用模式参数设置为“k条最佳规则”。中的规则存储在最终规则集中k最好的规则是k由此参数指定。范围:整数
  • rule_generation该参数决定应该生成哪些规则。该操作符允许分别推导正规则和负规则,或者通过推导两个规则或仅推导由于假设涵盖的示例而最有可能的规则来组合这两个规则(因此:该子集的实际预测)。选择范围:
  • max_depth此参数指定广度优先搜索的最大深度。此任务的循环遍历搜索空间的深度,即生成的假设的字面量的数量。可以通过此参数指定搜索的最大深度范围:整数
  • min_coverage此参数指定最小覆盖率。只考虑超过这个覆盖阈值的规则。范围:真正的
  • max_cache该参数限制了评估的规则数量(只使用最受支持的规则)。范围:整数

教程的过程

子组发现操作符的介绍

生成标称数据操作符用于生成ExampleSet。ExampleSet有两个二项式属性,包含100个示例。子组发现操作符应用于这个ExampleSet,并具有所有参数的默认值。mode参数设置为“k best rules”,k best rules参数设置为10。此外,实用函数参数设置为“WRAcc”。因此,规则集将由10个最佳规则组成,其中规则由WRAcc函数评估。结果规则集可以在Results工作区中看到。您可以看到有10条规则,它们按照WRAcc值的顺序排序。