类别

版本

利用主成分分析法(PCA)的重量(RapidMiner工作室核心)

剧情简介

该操作符通过使用由PCA创建的组件来创建ExampleSet的属性权重。该操作符的行为方式与由组件模型操作符赋予权重的PCA模型完全相同。

描述

Weight by PCA运算符使用由PCA创建的组件生成给定ExampleSet的属性权重。组件由组件数量参数。如果正常体重参数未设置为true时,将使用所选组件的确切值作为属性权重。的正常体重参数通常设置为true,以便将权重分散在0和1之间。属性权重反映了属性相对于类属性的相关性。一个属性的权重越高,它被认为越相关。

主成分分析(PCA)是一种数学过程,它使用正交变换将一组可能相关的属性的观察值转换为一组称为主成分的不相关属性值。主成分个数小于或等于原始属性个数。该转换的定义方式是,第一个主成分的方差尽可能高(占数据中尽可能多的变异性),在约束条件下,每个后续成分依次具有最高的方差,该约束条件是它应该与前一个成分正交(不相关)。

输入

  • 榜样(数据表)

    这个输入端口需要一个ExampleSet。它是附加的示例流程中的Retrieve操作符的输出。

输出

  • 权重(权重)

    这个端口提供属性相对于标签属性的权重。权重越高的属性被认为越相关。

  • 榜样(数据表)

    通过此端口传递作为输入的ExampleSet而不更改为输出。这通常用于在进一步的操作符中重用相同的ExampleSet,或者在结果工作区中查看ExampleSet。

参数

  • normalize_weights该参数指示计算的权重是否应该标准化。如果设置为true,则所有权重都在0到1的范围内归一化。范围:布尔
  • sort_weights此参数指示是否应该根据属性在结果中的权重对其进行排序。如果将此参数设置为true,则使用排序方向参数。范围:布尔
  • sort_direction该参数仅在排序权重参数设置为true。该参数根据属性的权重指定属性的排序顺序。选择范围:
  • component_number该参数指定应该用作属性权重的组件的数量。范围:整数

教程的过程

用PCA方法计算声纳数据集的属性权重

'Sonar'数据集使用Retrieve操作符加载。对其应用PCA算子。降维参数设置为“none”。这里插入一个断点,以便您可以查看由PCA操作符创建的组件。看看由PCA运算符特别是“PC1”生成的特征向量,因为它将通过使用组件模型权重运算符用作权重。接下来应用组件模型权重操作符。PCA运算符的exampleeset和Model端口通过Component Model运算符连接到Weight对应的端口。归一化权重和排序权重参数被设置为false,因此所有权重都将与所选组件完全相同。组件编号参数被设置为1,因此'PC1'将被用作属性权重。权重可以在Results Workspace中看到。 You can see that these weights are exactly the same as the values of 'PC1'.

在第二个操作符链中,权重由PCA操作符应用于“Sonar”数据集,以执行完全相同的任务。PCA算子权值的参数设置与分量模型权值的参数设置完全相同。在Results Workspace中可以看到,这里生成了完全相同的权重。