类别

版本

逻辑回归(进化)(RapidMiner Studio Core)

剧情简介

该算子是用于二元分类任务的核逻辑回归学习器。

描述

逻辑回归是一种回归分析,用于预测基于一个或多个预测变量的分类(可以承担有限数量的类别的变量)标准变量的结果。描述单个试验可能结果的概率被建模为解释变量的函数,使用逻辑函数。逻辑回归通过将因变量转换为概率分数来衡量分类因变量与通常是连续自变量(或几个)之间的关系

该操作符支持各种内核类型,包括点,径向,多项式,s型,方差,epachnenikov,高斯组合multiquadric.参数部分给出了这些内核类型的解释。

输入

  • 训练集(数据表)

    这个输入端口需要一个ExampleSet。此运算符不能处理标称属性;它可以应用于具有数字属性的数据集。因此,在应用此操作符之前,通常必须使用标称到数值操作符。

输出

  • 模型(内核模型)

    逻辑回归模型从这个输出端口传递。这个模型现在可以应用于未知的数据集。

  • 榜样(数据表)

    作为输入给出的ExampleSet不会通过该端口更改为输出。这通常用于在进一步的操作符中重用相同的ExampleSet,或者在结果工作区中查看ExampleSet。

参数

  • kernel_type通过此参数选择核函数的类型。支持以下内核类型:点,径向,多项式,s型,方差,epachnenikov,高斯组合,多重二次
    • dot:点核定义为k(x,y)=x*y,即它是x与y的内积。
    • radial:径向核由exp(-g ||x-y|| |^2)定义,其中g是伽马,它由内核参数gamma指定。可调参数gamma在内核的性能中起着重要作用,应该仔细地针对手头的问题进行调优。
    • 多项式:多项式核定义为k(x,y)=(x*y+1)^d,其中d为多项式的度数,由核度数参数指定。多项式核非常适合于所有训练数据都归一化的问题。
    • sigmoid: sigmoid内核由两层神经网络tanh(a x*y+b)定义,其中a为alpha, b为截距常数。这些参数可以使用内核a和内核b参数进行调整。alpha的一个常见值是1/N,其中N是数据维度。注意,并不是a和b的所有选择都能得到有效的核函数。
    • anova:方差核被定义为对exp(-g (x-y))求和的d次幂,其中g是伽马,d是度。伽玛和度分别由核参数和核度参数调节。
    • epachnenikov: epachnenikov核函数是这个函数(3/4)(1-u2)对于u在-1和1之间,对于u在这个范围之外为0。它有两个可调参数核sigma1和核度。
    • gaussian_combination:这是高斯组合核。它具有可调参数kernel sigma1, kernel sigma2和kernel sigma3。
    • multiquadric: multiquadric核由√(x-y||^2 + c^2)定义。它具有可调的参数核sigma1和核sigma移位。
    选择范围:
  • kernel_gamma这是核参数。这仅在内核类型参数设置为径向方差分析。范围:真正的
  • kernel_sigma1这是内核参数sigma1。这仅在内核类型参数设置为epachnenikov高斯组合multiquadric。范围:真正的
  • kernel_sigma2这是内核参数sigma2。这仅在内核类型参数设置为高斯组合范围:真正的
  • kernel_sigma3这是内核参数sigma3。这仅在内核类型参数设置为高斯组合范围:真正的
  • kernel_shift这是内核参数移位。这仅在内核类型参数设置为multiquadric范围:真正的
  • kernel_degree这是核参数度。这仅在内核类型参数设置为多项式方差分析epachnenikov范围:真正的
  • kernel_a这是内核参数a,只有在内核类型参数设置为乙状结肠范围:真正的
  • kernel_b这是内核参数b,只有在内核类型参数设置为乙状结肠范围:真正的
  • C这是设置错误分类容忍度的复杂性常数,其中较高的C值允许“软”边界,较低的C值创建“硬”边界。复杂度常数太大可能导致过度拟合,而值太小可能导致过度泛化。范围:真正的
  • start_population_type此参数指定起始人口初始化的类型。选择范围:
  • max_generations此参数指定算法应终止的代数。范围:整数
  • generations_without_improval此参数指定提前停止的停止标准,即在之后停止n几代人的表现没有改善。n由此参数指定。范围:整数
  • population_size此参数指定种群大小,即每代个体的数量。如果设置为-1,则选择所有示例。范围:整数
  • tournament_fraction此参数指定当前人口中应该用作锦标赛成员的比例。范围:真正的
  • keep_best这个参数指定最好的个体是否应该存活。这也被称为精英选择。将一代中最优秀的个体保留到下一代而不改变,这被称为精英主义或精英选择。范围:布尔
  • mutation_type此参数指定突变操作符的类型。选择范围:
  • selection_type此参数指定该进化算法的选择方案。选择范围:
  • crossover_prob选择个体进行交叉的概率由该参数指定。范围:真正的
  • use_local_random_seed该参数表示a局部随机种子应该用于随机化。使用相同的值局部随机种子会产生相同的随机化。范围:布尔
  • local_random_seed此参数指定局部随机种子.此参数仅在使用当地的随机种子参数设置为true。范围:整数
  • show_convergence_plot此参数表示是否应该绘制具有收敛图的对话框。范围:布尔

教程的过程

逻辑回归(进化)算子简介

使用检索操作符加载“Sonar”数据集。将Split Validation操作符应用于其上以训练和测试回归模型。在分割验证算子的训练子过程中应用了逻辑回归(进化)算子。所有参数使用默认值。逻辑回归(进化)算子生成回归模型。在测试子流程中使用Apply Model操作符将此模型应用于测试数据集。结果标记的ExampleSet由Performance操作符用于度量模型的性能。回归模型及其性能向量连接到输出,并且可以在Results工作区中看到。