chaid(RapidMiner Studio Core)
概要
该操作员根据卡方相关性测试生成修剪决策树。该操作员只能应用于具有名义数据的示例集。描述
CHAID决策树运算符的工作原理与决策树操作员完全一样,有一个例外:它使用基于卡方的标准,而不是信息增益或增益比标准。此外,该操作员不能应用于具有数值属性的示例集。建议您研究决策树操作员的文档,以基本了解决策树。
CHAID代表卡方的自动互动检测。卡方统计量是一种非参数统计技术,用于确定观察到的频率的分布是否与理论预期频率不同。卡方统计数据使用名义数据,因此该测试使用频率而不是使用均值和方差。Chaid的优势是其输出具有高度的视觉效果且易于解释。由于默认情况下使用多路拆分,因此需要有效工作的样本量相当大,因为对于小样本量,受访者组可能会迅速变得太小,无法进行可靠的分析。
与其他有意义且易于解释的方法相比,数据的表示具有优势。目标是创建一个基于示例集的几个输入属性来预测标签值的分类模型。树的每个内部节点对应于输入属性之一。内部节点的边数等于相应的输入属性的可能值数量。给定从根到叶子的路径表示的输入属性的值,每个叶节点代表标签的值。通过研究决策树运算符的示例过程,可以轻松理解此描述。
修剪是一种不添加决策树判别能力的叶子节点的技术。这样做是为了将过度或过度安装的树转换为更通用的形式,以增强其在看不见的数据集上的预测能力。预拆本是与树创建过程平行执行的一种修剪。另一方面,邮政在树创建过程完成后完成。
分化
CHAID操作员的工作原理与决策树操作员完全一样,有一个例外:它使用基于卡方的标准,而不是信息增益或增益比标准。此外,该操作员不能应用于具有数值属性的示例集。决策树(基于重量)
如果将Chi Squared统计操作员的重量应用于决策树(基于权重)操作员的子过程中的属性加权,则它的工作原理与CHAID操作员的工作原理。输入
- 训练集(数据表)
此输入端口期望一个示例集。它是随附的示例过程中生成的名义数据运算符的输出。其他操作员的输出也可以用作输入。该操作员无法处理数值数据,因此示例集不应具有数值属性。
输出
- 模型(决策树)
CHAID决策树是从此输出端口传递的。现在,可以将此分类模型应用于可见的数据集,以预测标签属性。
- 示例集(数据表)
给出的作为输入的示例集将传递,而不会通过此端口更改输出。这通常用于在其他运算符中重复使用相同的示例集,或在结果工作区中查看示例集。
参数
- minimal_size_for_split节点的大小是其子集中的示例数。根节点的大小等于示例集中的示例总数。只有那些节点是分裂的,其大小大于或等于分裂的最小尺寸范围。范围:整数
- minimal_leaf_size叶节点的大小是其子集中的示例数。该树的生成方式使每个叶节点子集至少具有最小的叶子大小实例数。范围:整数
- minimal_gain在将节点分解之前,计算出节点的增益。如果节点的增益大于最小收益。最小增益的较高值会导致拆分较少,因此较小的树。过高的值将完全防止分裂,并生成带有单个节点的树。范围:真实
- maximal_depth树的深度取决于示例集的大小和性质。此参数用于限制决策树的大小。当树深度等于树时,树生成过程不会继续最大深度。如果其值设置为“ -1”,则最大深度参数在树的深度上没有绑定,生成了最大深度的树。如果将其值设置为“ 1”,则会生成一个带有单个节点的树。范围:整数
- 信心此参数指定用于修剪的悲观误差计算的置信度。范围:真实
- number_of_prepruning_alternatives由于预恢复与树生成过程平行,因此在该节点上分裂时,它可能会阻止某些节点分裂,这不会添加到整个树的判别能力中。在这种情况下,尝试替代节点进行分裂。该参数调整了通过在某个节点前进行预缩的替代节点的替代节点的数量。范围:整数
- no_prepruning默认情况下,决策树是通过预恢复生成的。将此参数设置为TRUE,可以禁用预播,并提供树而无需任何预先进行。范围:布尔值
- no_pruning默认情况下,决策树是用修剪生成的。将此参数设置为TRUE禁用修剪并提供未经修剪的树。范围:布尔值
教程流程
CHAID操作员简介
生成的名义数据运算符用于生成具有100个示例的示例集。示例集中有三个名义属性,每个属性都有三个可能的值。这里插入一个断点,以便您可以查看示例集。CHAID运算符应用于此示例集,该示例集具有所有参数的默认值。结果模型连接到过程的结果端口,并且可以在结果工作区中看到。