二次判别分析(RapidMiner工作室核心)
剧情简介
该算子对标称标签和数值属性执行二次判别分析(QDA)。判别分析是用来确定哪些变量可以区分两个或两个以上的自然存在的群体,它可能有一个描述性的或预测性的目标。描述
该算子执行二次判别分析。QDA与线性判别分析(LDA)密切相关,其中假设测量值为正态分布。然而,与LDA不同的是,在QDA中没有假设每个类的协方差是相同的。要估计二次判别所需的参数,需要比线性判别更多的计算和数据。如果组协方差矩阵差异不大,则后者的二次判别效果同样好。二次判别法是贝叶斯判别法的一般形式。
判别分析用于确定哪些变量在两个或两个以上自然发生的群体之间有区别。例如,一个教育研究者可能想要调查决定(1)上大学,(2)不上大学的高中毕业生之间,哪些变量有区别。为此,研究人员可以在学生毕业前收集大量变量的数据。毕业后,大多数学生自然会分为两类。然后,判别分析可以用来确定哪些变量(s)是学生后续教育选择的最佳预测因素。在计算上,判别函数分析非常类似于方差分析(ANOVA)。例如,假设相同的学生毕业场景。我们可以测量学生在毕业前一年继续上大学的意向。如果这两组人(上过大学的和没上过大学的)的手段不同,那么我们可以说,在毕业前一年所陈述的上大学的意图使我们能够区分那些注定要上大学和不打算上大学的人(这一信息可能被职业顾问用来为各自的学生提供适当的指导)。判别分析的基本思想是确定在一个变量的平均值方面群体是否不同,然后使用该变量来预测群体成员(例如,新病例)。
鉴别分析可以用于两个目标:我们要么想评估分类的充分性,考虑到研究对象的组成员关系;或者,我们希望将对象分配给若干(已知的)对象组中的一个。因此,鉴别分析可能具有描述性或预测性的目标。在这两种情况下,在进行判别分析之前必须知道一些分组分配。这样的小组分配,或标签,可以以任何方式达成。因此,判别分析可以作为聚类分析(以判断后者的结果)或主成分分析的有益补充。
分化
线性判别分析
QDA执行二次判别分析(QDA)。QDA与线性判别分析(LDA)密切相关,其中假设测量值为正态分布。然而,与LDA不同的是,在QDA中没有假设每个类的协方差是相同的。正规化的判别分析
RDA正则化判别分析(RDA)是对LDA和QDA的推广。这两种算法都是本算法的特例。如果alpha参数设置为1,则RDA运算符执行LDA。类似地,如果alpha参数设置为0,则RDA运算符执行QDA。输入
- 训练集(数据表)
这个输入端口需要一个ExampleSet。它是附加的示例流程中的Retrieve操作符的输出。其他运算符的输出也可以用作输入。
输出
- 模型(模型)
执行鉴别分析,生成的模型从这个输出端口发送
- 榜样(数据表)
通过此端口传递作为输入的ExampleSet而不更改为输出。这通常用于在进一步的操作符中重用相同的ExampleSet,或者在结果工作区中查看ExampleSet。
参数
- approximate_covariance_inverse这个参数表示如果实际的逆不存在,协方差矩阵的逆是否应该近似。默认情况下是激活的。范围:布尔
教程的过程
QDA算子介绍
'Sonar'数据集使用Retrieve操作符加载。这里插入一个断点,以便您可以查看这个ExampleSet。在这个示例集中应用了二次判别分析运算符。二次判别分析操作符执行判别分析,结果模型可以在结果工作区中看到。