类别

版本

线性回归(RapidMiner Studio Core)

剧情简介

这个操作符从输入的ExampleSet计算一个线性回归模型。

描述

回归是一种用于数值预测的技术。回归是一种统计度量,试图确定一个因变量(即标签属性)和一系列其他变化变量(称为自变量(规则属性))之间关系的强度。就像分类用于预测分类标签一样,回归用于预测连续值。例如,我们可能希望预测具有5年工作经验的大学毕业生的工资,或者给定价格的新产品的潜在销售额。回归通常用于确定商品价格、利率、特定行业或部门等特定因素对资产价格变动的影响程度。

线性回归试图通过将线性方程拟合到观测数据中来为标量变量和一个或多个解释变量之间的关系建模。例如,人们可能希望使用线性回归模型将个体的体重与身高联系起来。

这个算子计算一个线性回归模型。它使用赤池准则进行模型选择。赤池信息准则是衡量统计模型拟合的相对优度。它以信息熵的概念为基础,实际上提供了在使用给定模型来描述现实时丢失的信息的相对度量。可以说,它描述了模型构建中偏差和方差之间的权衡,或者松散地说,是模型的准确性和复杂性之间的权衡。

分化

多项式回归

多项式回归是线性回归的一种形式,其中自变量之间的关系x因变量y被建模为n阶多项式。

输入

  • 训练集(数据表)

    这个输入端口需要一个ExampleSet。此运算符不能处理标称属性;它可以应用于具有数字属性的数据集。因此,在应用此操作符之前,通常必须使用标称到数值操作符。

输出

  • 模型(线性回归模型)

    回归模型从这个输出端口交付。这个模型现在可以应用于未知的数据集。

  • 榜样(数据表)

    作为输入给出的ExampleSet不会通过该端口更改为输出。这通常用于在进一步的操作符中重用相同的ExampleSet,或者在结果工作区中查看ExampleSet。

  • 权重(权重)

    该端口用于下发属性权重。

参数

  • feature_selection这是一个专家参数。它指示了在回归过程中要使用的特征选择方法。以下选项可用:none, M5撇,贪婪,T-Test,迭代T-Test选择范围:
  • α该参数仅在特征选择参数设置为“T-Test”。的值α在t测试特征选择中使用。范围:真正的
  • max_iterations此参数仅在特征选择参数设置为“迭代T-Test”。它指定了用于特征选择的迭代T-Test的最大迭代次数。范围:整数
  • forward_alpha此参数仅在特征选择参数设置为“迭代T-Test”。的值向前α在t测试特征选择中使用。范围:真正的
  • backward_alpha此参数仅在特征选择参数设置为“迭代T-Test”。的值落后的α在t测试特征选择中使用。范围:真正的
  • eliminate_colinear_features该参数表示算法在回归过程中是否应该尝试删除共线特征。范围:布尔
  • min_tolerance此参数仅在消除共线特征参数设置为true。它规定了消除共线特征的最小公差。范围:真正的
  • use_bias此参数表示是否应该计算截取值。范围:布尔
  • 此参数指定在脊回归中使用的脊参数。范围:真正的

教程的过程

在多项式数据集上应用线性回归算子

使用检索操作符加载“多项式”数据集。对其应用筛选示例范围操作符。“Filter example Range”参数的第一个示例参数设置为1,最后一个示例参数设置为100。因此,选择“多项式”数据集的前100个示例。使用所有参数的默认值对其应用线性回归算子。使用Apply model操作符将线性回归操作符生成的回归模型应用于“多项式”数据集的最后100个示例。来自Apply Model操作符的标记数据被提供给Performance (Regression)操作符。将绝对误差和预测平均参数设为true。因此,性能(回归)操作符生成的性能向量具有关于标记数据集中的绝对误差和预测平均值的信息。绝对误差的计算方法是将所有预测值与label属性的实际值的差相加,然后将这个差除以预测的总数。 The prediction average is calculated by adding all actual label values and dividing this sum by the total number of examples. You can verify this from the results in the Results Workspace.