相关权重(RapidMiner Studio Core)
剧情简介
这个运算符通过计算输入exampleeset中每个属性相对于label属性的相关性值来计算属性的相关性。该加权方案基于相关性,它返回相关性的绝对值或平方值作为属性权重。描述
Weight by Correlation操作符通过使用相关性计算属性相对于标签属性的权重。一个属性的权重越高,它的相关性就越高。请注意,Weight by Correlation操作符只能应用于带有数字或双名标签的示例集。它不能应用于多项式属性,因为多项式类没有提供关于它们排序的信息,因此权重或多或少是随机的,这取决于类的内部数值表示。二名标签之所以有效,是因为它表示为0和1,就像数字标签一样。
相关性是一个介于-1和+1之间的数字,用来衡量两个属性(称为X和Y)之间的关联程度。相关性的正值表示正关联。在这种情况下,较大的X值往往与较大的Y值相关联,较小的X值往往与较小的Y值相关联。相关性为负值意味着负相关或负相关。在这种情况下,较大的X值往往与较小的Y值相关联,反之亦然。
假设我们有两个属性X和Y,均值分别为X'和Y',标准差分别为S(X)和S(Y)。相关性计算为乘积从1到n的总和(X (i) - X”)。(Y (i) - Y”)然后把这个和除以乘积(n - 1) s (X)授予(Y)在哪里n例子的总数和我是求和的增量变量。可以有其他的公式和定义,但为了简单起见,让我们坚持使用这个。
正如前面所讨论的,相关性的正值意味着正相关。假设X值高于平均水平,而相关的Y值也高于平均水平。然后是乘积(X (i) - X”)。(Y (i) - Y”)是两个正数的乘积也是正数。如果X值和Y值都低于平均值,那么上面的乘积将是两个负数,这也是正数。因此,正相关证明了一种普遍趋势,即X的大值与Y的大值相关,X的小值与Y的小值相关。
如前所述,相关关系的负值意味着负相关或负相关。假设X值高于平均值,而相关的Y值却低于平均值。然后是乘积(X (i) - X”)。(Y (i) - Y”)就是一个正数和一个负数的乘积结果就是负数。如果X值低于平均值而Y值高于平均值,那么上面的乘积也是负的。因此,负相关证明了一个普遍趋势,即X的大值与Y的小值相关,X的小值与Y的大值相关。
输入
- 榜样(数据表)
这个输入端口需要一个ExampleSet。它是所附示例流程中检索操作符的输出。
输出
- 权重(权重)
这个端口提供了属性相对于标签属性的权重。权重较高的属性被认为相关性更强。
- 榜样(数据表)
作为输入的exampleeset通过该端口传递而不改变为输出。这通常用于在进一步的操作符中重用相同的ExampleSet,或者在Results Workspace中查看ExampleSet。
参数
- normalize_weights此参数表示计算的权重是否应该标准化。如果设置为true,所有权重都在0到1的范围内归一化。范围:布尔
- sort_weights此参数表示是否应根据结果中的权重对属性进行排序。如果此参数设置为true,则使用排序方向参数。范围:布尔
- sort_direction时,此参数有效排序权重参数设置为true。此参数根据属性的权重指定属性的排序顺序。选择范围:
- squared_correlation此参数指示是否应计算平方相关而不是简单相关。如果设置为true,属性权重将计算为相关的平方,而不是简单的相关。范围:布尔
教程的过程
计算多项式数据集的属性权重
使用Retrieve操作符加载“多项式”数据集。在其上应用Weight by Correlation运算符来计算属性的权重。所有参数均使用默认值。normalize weights参数被设置为true,因此所有的权重都将在0到1的范围内标准化。sort weights参数设置为true, sort direction参数设置为“ascending”,因此结果将按照权重的升序排列。您可以通过在results Workspace中查看此过程的结果来验证这一点。现在将平方相关参数设置为true并再次运行该流程。你会看到这些权重是之前权重的平方。