类别

版本

期望最大化聚类(RapidMiner Studio Core)

剧情简介

该操作符使用期望最大化算法执行聚类。聚类是指将彼此相似但与属于其他聚类的对象不同的对象分组在一起。但是期望最大化算法在一些重要的方面扩展了这种基本的聚类方法。

描述

聚类的一般目的是在示例中检测聚类,并将这些示例分配到聚类中。这类分析的典型应用是营销研究,其中针对大量受访者样本测量了许多与消费者行为相关的变量。该研究的目的是检测“市场细分”,即与属于其他集群的受访者相比,在某种程度上彼此更相似(与同一集群的所有其他成员)的受访者群体。除了识别此类集群之外,通常还需要确定集群的不同之处,即确定变化的特定变量或维度,以及它们在不同集群中的成员方面如何变化。

EM(期望最大化)技术类似于K-Means技术。K-Means聚类算法的基本操作相对简单:给定一个固定数目的k聚类,将观测值分配给这些聚类,使聚类之间(所有变量)的均值尽可能不同。EM算法在两个重要方面扩展了这种基本的聚类方法:

  • EM聚类算法基于一个或多个概率分布计算聚类成员的概率,而不是将示例分配给聚类以最大化连续变量的均值差异。聚类算法的目标是在给定(最终)聚类的情况下,最大化数据的总体概率或可能性。

期望最大化算法这种聚类方法的基本方法和逻辑如下。假设你在一个大的观察样本中测量一个连续变量。进一步,假设样本由两组具有不同均值(可能还有不同的标准差)的观测值组成;在每个样本中,连续变量的值的分布遵循正态分布。EM聚类的目标是估计每个聚类的均值和标准差,从而使观测数据(分布)的似然最大化。换句话说,EM算法试图根据不同聚类中不同分布的混合来近似观测到的值分布。EM聚类的结果与k-means聚类的结果不同。后者将观测值分配给聚类,以最大化聚类之间的距离。EM算法并不计算实际的观测值分配到集群,而是分类概率。换句话说,每个观测值都以一定的概率属于每个聚类。 Of course, as a final result you can usually review an actual assignment of observations to clusters, based on the (largest) classification probability.

分化

k - means

K-Means算子使用K-Means算法进行聚类。k均值聚类是一种排他性聚类算法,即每个对象被精确地分配到一组聚类中的一个。一个集群中的对象彼此相似。物体之间的相似性是基于它们之间距离的度量。K-Means算子将观测值分配给聚类,以最大化聚类之间的距离。另一方面,期望最大化聚类算子计算分类概率。

输入

  • 榜样(数据表)

    输入端口需要一个ExampleSet。它是所附示例流程中检索操作符的输出。其他运算符的输出也可以用作输入。

输出

  • 集群模式(集群模型)

    该端口提供了集群模型,其中包含了关于所执行的集群的信息。它有关于聚类概率和聚类均值的信息。

  • 集群设置(数据表)

    作为输入的exampleeset通过该端口传递,并对输出进行了微小的更改。一个具有id角色的属性被添加到输入的ExampleSet中,以区分示例。还可以添加具有集群角色的属性,具体取决于添加集群属性参数的状态。如果show probability参数设置为true,则为每个集群添加一个概率列。

参数

  • k此参数指定要形成的集群数量。要形成的集群数量没有硬性规定。但是,通常情况下,最好有少量的集群,并以平衡的方式将示例分散在它们周围(不要太分散)。范围:整数
  • add_cluster_attribute如果启用,则使用集群角色直接在此操作符中生成,否则此操作符不添加集群属性。在后一种情况下,您必须使用Apply Model操作符来生成集群属性。范围:布尔
  • add_as_label属性的属性中存储集群id标签角色而不是集群角色(见添加集群属性参数)。范围:布尔
  • remove_unlabeled如果设置为true,则删除未标记的示例。范围:布尔
  • max_runs此参数指定随机初始化该操作符的最大运行次数。范围:整数
  • max_optimization_steps此参数指定此运算符的一次运行所执行的最大迭代次数。范围:整数
  • 质量该参数指定了在算法停止之前必须满足的质量(即必须被削弱的对数可能性的上升)。范围:真正的
  • use_local_random_seed此参数表示如果a局部随机种子应该用于随机化。范围:布尔
  • local_random_seed此参数指定局部随机种子.此参数仅在使用局部随机种子参数设置为true。范围:整数
  • show_probabilities这个参数表示每个簇的概率是否应该插入到ExampleSet中的每个示例中。范围:布尔
  • inital_distribution该参数表示质心的初始分布。选择范围:
  • correlated_attributes如果ExampleSet包含相关属性,则该参数应设置为true。范围:布尔

教程的过程

使用期望最大化聚类操作符对Ripley-Set数据集进行聚类

“Ripley-Set”数据集是使用Retrieve操作符加载的。注意,标签也被加载了,但它仅用于可视化和比较,而不是用于构建集群本身。在此步骤中插入一个断点,以便您可以在应用期望最大化群集操作符之前查看ExampleSet。除了标签属性,“Ripley-Set”还有两个实属性;'att1'和'att2'。期望最大化聚类运算符应用于此数据集,所有参数都具有默认值。运行该流程,您将看到由Expectation Maximization Clustering操作符创建了一些新属性。创建id属性是为了清楚地区分示例。创建cluster属性是为了显示示例属于哪个集群。由于参数k被设置为2,所以只有两个聚类是可能的。 That is why each example is assigned to either 'cluster_0' or 'cluster_1'. Note that the Expectation Maximization Clustering operator has added probability attributes for each cluster that show the probability of an example to be part of that cluster. This operator assigns an example to the cluster with maximum probability. Also note the Plot View of this data. You can clearly see how the algorithm has created two separate groups in the Plot View. A cluster model is also delivered through the cluster model output port. It has information regarding the clustering performed. It also has information about cluster probabilities and cluster means. Under Folder View you can see members of each cluster in folder format.