信息增益比权重(RapidMiner Studio Core)
剧情简介
该运算符根据信息增益比计算属性的相关性,并相应地为它们分配权重。描述
权重由信息增益比运算符通过使用信息增益比计算属性相对于标签属性的权重。一个属性的权重越高,它的相关性就越高。请注意,此操作符只能应用于带有标称标签的示例集。
采用信息增益比,解决了信息增益的缺点。尽管信息增益通常是决定属性相关性的一个很好的度量,但它并不是完美的。当信息增益应用于具有大量不同值的属性时,会出现一个值得注意的问题。例如,假设一些描述企业客户的数据。当使用信息增益来决定哪些属性最相关时,客户的信用卡号可能具有较高的信息增益。此属性具有很高的信息增益,因为它唯一地标识了每个客户,但是我们可能不希望为此类属性分配高权重。通过信息增益权重运算符使用信息增益来生成属性权重。
有时用信息增益比代替信息增益。信息增益比率倾向于考虑具有大量不同值的属性。然而,具有非常低的信息值的属性似乎会获得不公平的优势。
输入
- 榜样(数据表)
这个输入端口需要一个ExampleSet。它是所附示例流程中检索操作符的输出。
输出
- 权重(权重)
这个端口提供了属性相对于标签属性的权重。权重较高的属性被认为相关性更强。
- 榜样(数据表)
作为输入的exampleeset将通过此端口传递而不更改为输出。这通常用于在进一步的操作符中重用相同的ExampleSet,或者在Results Workspace中查看ExampleSet。
参数
- normalize_weights此参数表示计算的权重是否应该标准化。如果设置为true,所有权重都在0到1的范围内归一化。范围:布尔
- sort_weights此参数表示是否应根据结果中的权重对属性进行排序。如果此参数设置为true,则使用排序方向参数。范围:布尔
- sort_direction时,此参数有效排序权重参数设置为true。此参数根据属性的权重指定属性的排序顺序。选择范围:
教程的过程
计算Golf数据集属性的权重
使用Retrieve操作符加载'Golf'数据集。在此基础上应用信息增益比权重运算符来计算属性的权重。所有参数均使用默认值。normalize weights参数被设置为true,因此所有的权重都将在0到1的范围内标准化。sort weights参数设置为true, sort direction参数设置为“ascending”,因此结果将按照权重的升序排列。您可以通过在results Workspace中查看此过程的结果来验证这一点。