决策树(基于权重)(RapidMiner Studio Core)
剧情简介
该算子基于任意属性相关性测试生成一棵经过修剪的决策树。属性加权方案应作为内部操作符提供。此操作符只能应用于具有标称数据的ExampleSets。描述
决策树(基于权重)操作符是一个嵌套操作符,即它有一个子进程。子进程必须有一个属性权重方案,即一个期望一个ExampleSet并生成属性权重的操作符。为了应用此操作符,您需要对子流程有基本的了解。为了对子过程有基本的了解,请阅读子过程操作符的文档。
决策树(基于权重的)操作符与决策树操作符完全相同,但有一个例外:它使用任意属性相关性测试标准,而不是信息增益或增益比标准。此外,该操作符不能应用于具有数值属性的exampleset。建议您学习决策树操作符的文档,以基本了解决策树。
如果为属性加权提供了Weight by Chi Squared Statistic操作符,则该操作符充当CHAID操作符。CHAID代表卡方自动交互检测。卡方统计量是一种非参数统计技术,用于确定观测频率的分布是否与理论预期频率不同。卡方统计使用标称数据,因此,该检验使用频率,而不是使用均值和方差。CHAID的优点是它的输出是高度可视化的,易于解释。因为它默认使用多路分割,所以它需要相当大的样本量才能有效地工作,因为样本量小,应答组很快就会变得太小,无法进行可靠的分析。
与其他方法相比,以树的形式表示数据具有有意义且易于解释的优势。目标是创建一个分类模型,该模型基于ExampleSet的几个输入属性来预测标签的值。树的每个内部节点对应于一个输入属性。内部节点的边数等于相应输入属性的可能值的数量。给定从根到叶的路径所表示的输入属性的值,每个叶节点表示标签的一个值。通过研究决策树算子的示例过程可以很容易地理解这种描述。
修剪是一种不增加决策树判别能力的叶节点被移除的技术。这样做是为了将过度特定或过度拟合的树转换为更一般的形式,以增强其对未知数据集的预测能力。预修剪是与树创建过程并行执行的一种修剪。另一方面,后剪枝是在树创建过程完成后进行的。
分化
CHAID
如果在Decision Tree (Weight- based)算子的子过程中使用Weight by Chi Squared Statistic算子对属性进行加权,其工作原理与CHAID算子完全相同。输入
- 训练集(数据表)
这个输入端口需要一个ExampleSet。它是附带的示例过程中生成标称数据操作符的输出。其他运算符的输出也可以用作输入。这个操作符不能处理数值数据,因此ExampleSet不应该有数值属性。
输出
- 模型(决策树)
决策树从这个输出端口传递。这个分类模型现在可以应用于未知的数据集来预测标签属性。
参数
- minimal_size_for_split树中节点的大小是其子集中样本的数量。根节点的大小等于ExampleSet中示例的总数。只拆分那些大小大于或等于的节点分体最小尺寸参数。范围:整数
- minimal_leaf_size树中叶节点的大小是其子集中样本的数量。生成树的方式是,每个叶节点子集至少具有最小叶大小实例数。范围:整数
- maximal_depth树的深度取决于ExampleSet的大小和性质。该参数用于限制决策树的大小。当树深度等于时,树生成过程不继续最大深度。如果它的值被设置为'-1',则最大深度参数对树的深度不加限制,则生成深度最大的树。如果将其值设置为“1”,则生成一个具有单个节点的Tree。范围:整数
- 信心此参数指定用于计算剪枝的悲观误差的置信水平。范围:真正的
- no_pruning默认情况下,决策树是通过剪枝生成的。将该参数设置为true将禁用剪枝,并生成未剪枝的树。范围:布尔
- number_of_prepruning_alternatives由于预剪枝与树的生成过程是并行的,当在某个节点上进行剪枝不会增加整个树的判别能力时,预剪枝可能会阻止在该节点上进行剪枝。在这种情况下,尝试其他节点进行分裂。当在某个节点上通过预修剪阻止分裂时,此参数调整尝试分裂的备选节点的数量。范围:整数
教程的过程
决策树(基于权重)算子简介
生成标称数据操作符用于生成包含100个示例的ExampleSet。在ExampleSet中有三个标称属性,每个属性都有三个可能的值。这里插入了一个断点,以便您可以查看ExampleSet。决策树(基于权重的)操作符应用于这个ExampleSet,并具有所有参数的默认值。生成的模型连接到流程的结果端口,并且可以在Results Workspace中看到。