类别

版本

线性判别分析(RapidMiner工作室核心)

剧情简介

该算子执行线性判别分析。这种方法试图找到特征的线性组合,最好地将两类或两类以上的例子分开。然后将得到的组合用作线性分类器。判别分析是用来确定哪些变量可以区分两个或两个以上的自然存在的群体,它可能有一个描述性的或预测性的目标。

描述

该算子执行线性判别分析。这种方法试图找到特征的线性组合,最好地将两类或两类以上的例子分开。然后将得到的组合用作线性分类器。LDA与方差分析(方差分析)和回归分析密切相关,回归分析也试图将一个因变量表示为其他特征或测量的线性组合。然而,在其他两种方法中,因变量是一个数值,而对于LDA,因变量是一个类别变量(即类标签)。LDA也与主成分分析(PCA)和因子分析密切相关,因为两者都寻找变量的线性组合,最好地解释数据。LDA显式地尝试对数据类之间的差异进行建模。另一方面,PCA不考虑任何类的差异。

判别分析用于确定哪些变量在两个或两个以上自然发生的群体之间有区别。例如,一个教育研究者可能想要调查决定(1)上大学,(2)不上大学的高中毕业生之间,哪些变量有区别。为此,研究人员可以在学生毕业前收集大量变量的数据。毕业后,大多数学生自然会分为两类。然后,判别分析可以用来确定哪些变量(s)是学生后续教育选择的最佳预测因素。在计算上,判别函数分析非常类似于方差分析(ANOVA)。例如,假设相同的学生毕业场景。我们可以测量学生在毕业前一年继续上大学的意向。如果这两组人(实际上上过大学的人和没有上过大学的人)的手段不同,那么我们可以说,在毕业前一年所陈述的上大学的意图使我们能够区分那些将要和不将要上大学的人(这一信息可能被职业顾问用来为各自的学生提供适当的指导)。判别分析的基本思想是确定群体在一个变量的均值方面是否不同,然后使用该变量来预测群体成员关系(例如,新病例)。

鉴别分析可以用于两个目标:我们要么想评估分类的充分性,考虑到研究对象的组成员关系;或者,我们希望将对象分配给若干(已知的)对象组中的一个。因此,鉴别分析可能具有描述性或预测性的目标。在这两种情况下,在进行判别分析之前必须知道一些分组分配。这样的小组分配,或标签,可以以任何方式达成。因此,判别分析可以作为聚类分析(以判断后者的结果)或主成分分析的有益补充。

分化

二次判别分析

QDA执行二次判别分析(QDA)。QDA与线性判别分析(LDA)密切相关,其中假设测量值为正态分布。然而,与LDA不同的是,在QDA中没有假设每个类的协方差是相同的。

正规化的判别分析

RDA正则化判别分析(RDA)是对LDA和QDA的推广。这两种算法都是本算法的特例。如果alpha参数设置为1,则RDA运算符执行LDA。类似地,如果alpha参数设置为0,则RDA运算符执行QDA。

输入

  • 训练集(数据表)

    这个输入端口需要一个ExampleSet。它是附加的示例流程中的Retrieve操作符的输出。其他运算符的输出也可以用作输入。

输出

  • 模型(模型)

    执行鉴别分析,生成的模型从这个输出端口发送

  • 榜样(数据表)

    通过此端口传递作为输入的ExampleSet而不更改为输出。这通常用于在进一步的操作符中重用相同的ExampleSet,或者在结果工作区中查看ExampleSet。

参数

  • approximate_covariance_inverse这个参数表示如果实际的逆不存在,协方差矩阵的逆是否应该近似。默认情况下是激活的。范围:布尔

教程的过程

介绍LDA运算符

'Sonar'数据集使用Retrieve操作符加载。这里插入一个断点,以便您可以查看这个ExampleSet。在这个示例集中应用了线性判别分析运算符。线性判别分析操作符执行判别分析,结果模型可以在结果工作区中看到。