类别

版本

Gini指数的重量(RapidMiner Studio Core)

概要

该操作员根据Gini杂质指数计算给定示例集的属性的相关性。

描述

Gini索引运算符的权重通过计算类别分布的Gini索引来计算属性相对于标签属性的权重,如果给定的示例集将根据属性进行分配。Gini指数是示例集杂质的量度。属性的重量越高,它被考虑的相关性越大。请注意,该操作员只能应用于带有名称标签的示例集。

输入

  • 示例集(数据表)

    此输入端口期望一个示例集。它是附件示例过程中检索操作员的输出。

输出

  • 权重(属性重量)

    此端口将相对于标签属性提供属性的权重。重量较高的属性被认为更相关。

  • 示例集(数据表)

    输入的示例集将传递,而不会通过此端口更改输出。这通常用于在其他运算符中重复使用相同的示例集,或在结果工作区中查看示例集。

参数

  • 归一化_weights此参数指示是否应将计算的权重标准化。如果设置为true,则所有权重均在0到1的范围内归一化。范围:布尔值
  • sort_weights此参数指示属性是否应根据结果中的权重对其进行排序。如果此参数设置为true,则使用排序方向范围。范围:布尔值
  • sort_direction此参数仅在排序重量参数设置为true。此参数根据其权重指定属性的排序顺序。范围:选择

教程流程

计算高尔夫数据集的属性权重

使用检索操作员加载“高尔夫”数据集。GINI索引操作员的权重用于计算属性的权重。所有参数均与默认值一起使用。归一化权重参数设置为true,因此所有权重将在范围0到1中归一化。排序权重参数设置为true,排序方向参数设置为“上升”,因此结果将按上升顺序重量。您可以通过在结果工作区中查看此过程的结果来验证这一点。