类别

版本

随机聚类(RapidMiner工作室核心)

剧情简介

该操作符对给定的示例集执行随机的平面聚类。聚类是将彼此相似且不同于属于其他集群的对象分组在一起。

描述

该操作符对给定的示例集执行随机的平面聚类。请注意,此算法不能保证所有集群都是非空的。此操作符在结果示例集中创建一个集群属性添加集群属性参数设置为true。需要注意的是,这个操作符随机地将示例分配给集群,如果你想要正确地聚类,请使用实现了像K-Means操作符这样的聚类算法的操作符。

聚类是将彼此相似而又不同于属于其他集群的对象分组在一起。聚类是一种从未标记数据中提取信息的技术。集群在许多不同的场景中都非常有用,例如在一个营销应用程序中,我们可能对寻找具有相似购买行为的客户集群感兴趣。

输入

  • 榜样(数据表)

    输入端口需要一个ExampleSet。它是所附带的示例流程中的Retrieve操作符的输出。其他运算符的输出也可以用作输入。

输出

  • 集群模式(集群模型)

    此端口提供集群模型,该模型包含有关所执行的集群的信息。它告诉我们哪些示例属于哪个集群。

  • 集群设置(数据表)

    作为输入给出的ExampleSet通过这个端口传递,对输出稍加更改。一个带有id role的属性被添加到输入ExampleSet中以区分示例。还可以根据添加集群属性参数的状态添加具有集群角色的属性。

参数

  • add_cluster_attribute如果启用,则有一个新属性集群角色直接在该操作符中生成,否则该操作符不添加集群属性。在后一种情况下,您必须使用应用模型操作符来生成集群属性。范围:布尔
  • add_as_label如果为真,则集群id存储在属性中标签的作用,而不是集群角色(见添加集群属性参数)。范围:布尔
  • remove_unlabeled如果设置为true,未标记的示例将被删除。范围:布尔
  • number_of_clusters此参数指定要形成的集群的所需数量。形成集群的数量没有硬性的规则。但是,通常情况下,最好使用少量的集群,以一种平衡的方式将示例分散(不太分散)在它们周围。范围:整数
  • use_local_random_seed该参数表示是否当地的随机种子应该用于随机化。范围:布尔
  • local_random_seed此参数指定当地的随机种子.该参数仅当使用局部随机种子参数设置为true。范围:整数

教程的过程

Ripley-Set数据集的随机聚类

在许多情况下,没有目标属性(即标签)可以定义,数据应该自动分组。这个过程称为集群。RapidMiner支持广泛的集群模式,可以像其他学习模式一样使用这些模式。这包括与所有预处理操作符的组合。

在本例流程中,使用Retrieve操作符加载“Ripley-Set”数据集。注意,标签也被加载,但它仅用于可视化和比较,而不是用于构建集群本身。在这一步插入一个断点,这样您就可以在应用Random Clustering操作符之前查看ExampleSet。除了标签属性之外,“Ripley-Set”还有两个真实属性;“att1”和“att2”。随机集群操作符应用于这个数据集,所有参数都是默认值。运行该过程,您将看到Random Clustering操作符创建了两个新属性。创建id属性是为了清楚地区分示例。创建cluster属性以显示示例属于哪个集群。因为集群的数量参数被设置为3,所以只有3个集群是可能的。 That is why each example is assigned to 'cluster_0', 'cluster_1' or 'cluster_2'. Also note the Plot View of this data. You can clearly see how this operator has created three groups in the Plot View. A cluster model is also delivered through the cluster model output port. It has information regarding the clustering performed. Under Folder View you can see members of each cluster in folder format. It is important to note that this operator randomly assigns examples to clusters (this can be seen easily in the Plot View). If you want proper clustering of your ExampleSet please use an operator that implements a clustering algorithm like the K-Means operator.