分组方差分析(RapidMiner工作室核心)
剧情简介
该操作符基于用户指定的属性(名义)定义的组对用户指定的属性(数值)执行方差分析显著性检验。方差分析(ANOVA)是一种通用的技术,可以用来检验两个或多个组之间的均值相等的假设,假设抽样的总体是正态分布的。描述
类指定的分组属性为输入ExampleSet创建组组的属性参数。对于每一组的平均数和方差的方差属性被计算和方差分析(anova)被执行。变量指定方差分析属性方差分析属性参数。值得注意的是,分组属性应该是名义属性,方差分析属性应该是数字属性。该操作符的结果是指定显著性级别(由显著性水平参数),指示属性的值在分组属性定义的组之间是否有显著差异。
方差分析(ANOVA)是一种统计模型,在该模型中,观察到的特定变量的方差被划分为可归因于不同变异源的分量。方差分析以其最简单的形式提供了一种统计检验,以检验几个组的平均数是否都相等,因此将t检验推广到两个以上的组。进行多个双样本t检验将增加犯第一类错误的机会。因此,方差分析在比较两个、三个或更多的平均数时很有用。“假阳性”或第一类错误被定义为拒绝零假设的决定的概率,而它实际上是正确的,不应该被拒绝。在方差分析的典型应用中,零假设是所有组都是同一群体的随机样本。这意味着所有的治疗都有相同的效果(也许没有)。拒绝零假设意味着不同的处理会导致不同的效果。
分化
方差分析矩阵
基于所有标称属性定义的组,方差矩阵算子对所有数值属性进行方差分析显著性检验。输入
- 榜样(数据表)
这个输入端口需要一个ExampleSet。它是附加的示例流程中的Retrieve操作符的输出。其他运算符的输出也可以用作输入。ExampleSet应该同时具有标称属性和数值属性,因为该操作符基于指定标称属性定义的组为指定的数值属性执行ANOVA显著性测试。
输出
- 意义(方差分析的意义)
进行方差分析检验,并从该端口返回方差分析显著性检验结果。
- 榜样(数据表)
通过此端口传递作为输入的ExampleSet而不更改为输出。这通常用于在进一步的操作符中重用相同的ExampleSet,或者在结果工作区中查看ExampleSet。
参数
- anova_attribute类定义的组为此参数指定的属性计算方差分析组的属性参数。这个属性必须是数字的。范围:字符串
- group_by_attribute分组由此参数指定的属性值执行。这个属性必须是名义属性。范围:字符串
- significance_level此参数指定方差分析计算的显著性水平。范围:真正的
- only_distinct此参数指示是否只使用聚合属性值不同的行来计算聚合函数。范围:布尔
教程的过程
高尔夫数据集的分组方差分析
使用Retrieve操作符加载'Golf'数据集。这里插入一个断点,以便您可以查看ExampleSet。您可以看到,ExampleSet既有名义属性,也有数字属性。分组方差分析运算符应用于这个示例集。方差分析属性和分组属性参数分别设置为“湿度”和“发挥”。该操作符基于“Play”属性定义的组对“湿度”属性执行方差分析显著性检验。方差分析显著性检验的结果可以在结果工作区中查看。