Gini指数的重量(RapidMiner Studio Core)
概要
该操作员根据Gini杂质指数计算给定示例集的属性的相关性。描述
Gini索引运算符的权重通过计算类别分布的Gini索引来计算属性相对于标签属性的权重,如果给定的示例集将根据属性进行分配。Gini指数是示例集杂质的量度。属性的重量越高,它被考虑的相关性越大。请注意,该操作员只能应用于带有名称标签的示例集。
输入
- 示例集(数据表)
此输入端口期望一个示例集。它是附件示例过程中检索操作员的输出。
输出
- 权重(属性重量)
此端口将相对于标签属性提供属性的权重。重量较高的属性被认为更相关。
- 示例集(数据表)
输入的示例集将传递,而不会通过此端口更改输出。这通常用于在其他运算符中重复使用相同的示例集,或在结果工作区中查看示例集。
参数
- 归一化_weights此参数指示是否应将计算的权重标准化。如果设置为true,则所有权重均在0到1的范围内归一化。范围:布尔值
- sort_weights此参数指示属性是否应根据结果中的权重对其进行排序。如果此参数设置为true,则使用排序方向范围。范围:布尔值
- sort_direction此参数仅在排序重量参数设置为true。此参数根据其权重指定属性的排序顺序。范围:选择
教程流程
计算高尔夫数据集的属性权重
使用检索操作员加载“高尔夫”数据集。GINI索引操作员的权重用于计算属性的权重。所有参数均与默认值一起使用。归一化权重参数设置为true,因此所有权重将在范围0到1中归一化。排序权重参数设置为true,排序方向参数设置为“上升”,因此结果将按上升顺序重量。您可以通过在结果工作区中查看此过程的结果来验证这一点。