随机树(RapidMiner Studio Core)
概要
该操作员学习了决策树。该操作员仅对每种拆分使用一个随机的属性子集。描述
随机树操作员的工作原理与决策树运算符完全一样,有一个例外:对于每个拆分,只有一个随机的属性子集可用。建议您研究决策树操作员的文档,以基本了解决策树。
该操作员从名义数据和数值数据中学习决策树。决策树是强大的分类方法,可以轻松理解。随机树操作员的工作类似于Quinlan的C4.5或CART,但在应用属性之前选择了一个随机的子集。子集的大小由子集比范围。
与其他有意义且易于解释的方法相比,将数据表示为树具有优势。目标是创建一个基于示例集的几个输入属性来预测标签值的分类模型。树的每个内部节点对应于输入属性之一。内部节点的边数等于相应的输入属性的可能值数量。给定从根到叶子的路径表示的输入属性的值,每个叶节点代表标签的值。通过研究决策树运算符的示例过程,可以轻松理解此描述。
修剪是一种不添加决策树判别能力的叶子节点的技术。这样做是为了将过度或过度安装的树转换为更通用的形式,以增强其在看不见的数据集上的预测能力。预拆本是与树创建过程平行执行的一种修剪。另一方面,邮政在树创建过程完成后完成。
分化
随机树操作员的工作原理与决策树运算符完全一样,有一个例外:对于每个拆分,只有一个随机的属性子集可用。输入
- 训练集(数据表)
此输入端口期望一个示例集。它是附件示例过程中检索操作员的输出。其他操作员的输出也可以用作输入。
输出
- 模型(决策树)
随机树从此输出端口传递。现在,可以将此分类模型应用于可见的数据集,以预测标签属性。
- 示例集(数据表)
给出的作为输入的示例集将传递,而不会通过此端口更改输出。这通常用于在其他运算符中重复使用相同的示例集,或在结果工作区中查看示例集。
参数
- 标准此参数选择将选择属性进行分裂的标准。它可以具有以下值之一:
- 信息_GAIN:计算所有属性的熵。选择具有最小熵的属性进行分裂。该方法偏见选择具有大量值的属性。
- gain_ratio:这是信息增益的变体。它调整每个属性的信息增益,以允许属性值的广度和均匀性。
- gini_index:这是示例集杂质的量度。在所选属性上分裂可减少所得子集的平均GINI指数。
- 准确性:选择这样的属性进行拆分,以最大化整棵树的准确性。
- minimal_size_for_split树中的节点的大小是其子集中的示例数。根节点的大小等于示例集中的示例总数。只有那些节点是分裂的,其大小大于或等于分裂的最小尺寸范围。范围:整数
- minimal_leaf_size树上的叶节点的大小是其子集中的示例数。该树的生成方式使每个叶节点子集至少具有最小的叶子大小实例数。范围:整数
- minimal_gain在将节点分解之前,计算出节点的增益。如果节点的增益大于最小收益。最小增益的较高价值会导致拆分较少,因此较小的树。过高的值将完全防止分裂,并生成带有单个节点的树。范围:真实
- maximal_depth树的深度取决于示例集的大小和性质。此参数用于限制树的大小。当树深度等于树时,树生成过程不会继续最大深度。如果其值设置为“ -1”,则最大深度参数在树的深度上没有绑定,生成了最大深度的树。如果将其值设置为“ 1”,则会生成一个带有单个节点的树。范围:整数
- 信心此参数指定用于修剪的悲观误差计算的置信度。范围:真实
- number_of_prepruning_alternatives由于预恢复与树生成过程平行,因此在该节点上分裂时,它可能会阻止某些节点分裂,这不会添加到整个树的判别能力中。在这种情况下,尝试替代节点进行分裂。该参数调整了通过在某个节点前进行预缩时试图拆分时尝试分裂的替代节点的数量。范围:整数
- no_prepruning默认情况下,该树是通过预恢复生成的。将此参数设置为TRUE,可以禁用预播,并提供树而无需任何预先进行。范围:布尔值
- no_pruning默认情况下,该树是用修剪生成的。将此参数设置为TRUE禁用修剪并提供未经修剪的树。范围:布尔值
- guess_subset_ratio此参数指定子集比是否应该猜测。如果设置为true,log(m) + 1功能被用作子集,否则必须通过子集比范围。范围:布尔值
- subset_ratio此参数指定随机选择属性的子集比。范围:真实
- use_local_random_seed此参数指示是否局部随机种子应用于随机分组。使用相同的值局部随机种子将产生相同的随机化。范围:布尔值
- local_random_seed此参数指定局部随机种子。此参数仅在使用局部随机种子参数设置为true。范围:整数
教程流程
随机树操作员简介
使用检索操作员加载“虹膜”数据集。这里插入一个断点,以便您可以查看示例集。随机树操作员已应用于此示例集,其中所有参数的默认值。结果树连接到过程的结果端口,可以在结果工作区中看到。