类别

版本

DBSCAN(RapidMiner Studio Core)

剧情简介

该操作符使用DBSCAN执行集群。DBSCAN(用于带有噪声的应用程序的基于密度的空间聚类)是一种基于密度的聚类算法,因为它从相应节点的估计密度分布开始查找大量的聚类。

描述

DBSCAN对集群的定义是基于密度可达性的概念。基本上,一个点从一个点可以直接到达密度吗p如果它不比给定距离更远(即它是邻域的一部分),如果p是否有足够多的点可以考虑p而且成为集群的一部分。被称为密度可达(注意与“直接密度可达”的区别)p如果有一个序列p(1),…,p (n)的点P (1) = P而且P (n) = q其中每个p (i + 1)是否可以直接到达密度p(我)

注意,可达密度的关系不是对称的。可能位于集群的边缘,没有足够多的邻居来计算其密度。这将停止寻找到第一个非密集点的路径的过程。相比之下,从会导致p(尽管这个过程到此为止,p作为第一个非密集点)。由于这种不对称,引入了密度连通的概念:两点p而且如果有一个点,密度是否相关o这样一来p而且密度是否可达o.密度连通性是对称的。

簇是数据集中点的子集,它满足两个属性:簇中的所有点都是相互密度连接的。如果一个点密度连接到集群的任何点,它也是集群的一部分。

DBSCAN需要两个参数:epsilon和形成集群所需的最小点数(minPts)。方法可以指定epsilon和minPtsε而且最小值点参数分别。DBSCAN从一个没有被访问过的任意起点开始。检索这个点的邻域,如果它包含足够多的点,则启动一个集群。否则,点被标记为噪声。请注意,这个点稍后可能会在另一个点的足够大的epsilon环境中找到,因此会成为集群的一部分。

如果一个点被发现是一个星团的密集部分,它的邻域也是这个星团的一部分。因此,所有在邻域内的点都被添加,当它们也是密集的时候,它们自己的邻域也被添加。这个过程将继续,直到完全找到与密度相连的集群。然后,检索和处理一个新的未访问点,从而发现进一步的集群或噪声。

如果没有id属性,该操作符将创建一个。由DBSCAN运算符分配的“Cluster 0”对应于标记为噪声的点。这些是小于的点最小值点点在邻域内。

聚类是将彼此相似和与属于其他集群的对象不同的对象分组在一起。这是一种从未标记的数据中提取信息的技术,在许多不同的场景中都非常有用,例如,在营销应用程序中,我们可能对寻找具有相似购买行为的客户集群很感兴趣。

输入

  • 榜样(数据表)

    这个输入端口需要一个ExampleSet。它是附加的示例流程中的Retrieve操作符的输出。

输出

  • 集群模式(集群模型)

    此端口提供集群模型。它包含有关所执行集群的信息。它告诉哪些示例属于哪个集群。

  • 集群设置(数据表)

    通过此端口传递作为输入的ExampleSet,并对输出进行少量更改。一个具有id角色的属性被添加到输入ExampleSet中以区分示例。还可以根据添加集群属性参数的状态添加具有集群角色的属性。

参数

  • ε该参数指定DBSCAN算法的epsilon参数。指定邻域的大小。范围:真正的
  • min_points此参数指定形成集群的最小点数。范围:整数
  • add_cluster_attribute如果此参数设置为true,则带有集群角色将在生成的ExampleSet中生成,否则该操作符不会添加集群属性。在后一种情况下,您必须使用Apply Model操作符来生成集群属性。范围:布尔
  • add_as_label如果该参数设置为true,则集群id存储在带有标签角色而不是集群角色(见添加集群属性参数)。范围:布尔
  • remove_unlabeled如果将此参数设置为true,则从ExampleSet中删除未标记的示例。范围:布尔
  • measure_types此参数用于选择用于测量点之间距离的度量类型。有以下选项:混合的措施名义上的措施数值的措施而且师分歧选择范围:
  • mixed_measure该参数在测量类型参数设置为“混合度量”。唯一可用的选项是“混合欧氏距离”选择范围:
  • nominal_measure该参数在测量类型参数设置为'标称测量'。如果输入ExampleSet具有数值属性,则不能应用此选项。在这种情况下,应该选择“数值测量”选项。选择范围:
  • numerical_measure该参数在测量类型参数设置为“数值度量”。如果输入ExampleSet具有名义属性,则不能应用此选项。如果输入的ExampleSet具有标称属性,则应该选择“标称度量”选项。选择范围:
  • 散度该参数在测量类型参数设置为'bregman散度'。选择范围:
  • kernel_type该参数仅在数值测量参数设置为“核欧氏距离”。通过此参数选择核函数的类型。支持以下内核类型:
    • 点:点核由k(x,y)=x*y定义,即它是x和y的内积。
    • 径向:径向核由exp(-g ||x-y||^2)定义,其中g是由核gamma参数指定的gamma。可调参数gamma在内核的性能中起着重要作用,应该根据手头的问题仔细调整它。
    • 多项式:多项式核由k(x,y)=(x*y+1)^d定义,其中d是多项式的次,由核次参数指定。多项式核非常适合于所有训练数据都是规范化的问题。
    • 神经:神经核由两层神经网络tanh(a x*y+b)定义,其中a为,b为截距常数。可以使用内核a和内核b参数调整这些参数。通常的值是1/N,其中N是数据维数。注意,不是所有a和b的选择都指向一个有效的核函数。
    • sigmoid:这是sigmoid核。请注意,sigmoid核在某些参数下是无效的。
    • anova:这是一个方差分析核。它有可调的参数伽马和度。
    • epachnenikov: epachnenikov核是这个函数(3/4)(1-u2)对于u在-1到1之间,对于u在这个范围之外是0。它有两个可调参数:核sigma1和核度。
    • gaussian_combination:这是高斯组合核。它具有可调的参数内核sigma1,内核sigma2和内核sigma3。
    • 多二次:多二次核由||x-y||^2 + c^2的平方根定义。它具有可调参数核sigma1和核sigmashift。
    选择范围:
  • kernel_gamma这是支持向量机的核参数。该参数仅在数值测量参数设置为“核欧氏距离”,而内核类型参数设置为径向方差分析。范围:真正的
  • kernel_sigma1这是支持向量机内核参数sigma1。该参数仅在数值测量参数设置为“核欧氏距离”,而内核类型参数设置为epachnenikov高斯组合multiquadric。范围:真正的
  • kernel_sigma2这是支持向量机的核参数sigma2。该参数仅在数值测量参数设置为“核欧氏距离”,而内核类型参数设置为高斯组合范围:真正的
  • kernel_sigma3这是支持向量机的核参数sigma3。该参数仅在数值测量参数设置为“核欧氏距离”,而内核类型参数设置为高斯组合范围:真正的
  • kernel_shift这是支持向量机的核参数移位。该参数仅在数值测量参数设置为“核欧氏距离”,而内核类型参数设置为multiquadric范围:真正的
  • kernel_degree这就是支持向量机的核参数度。该参数仅在数值测量参数设置为“核欧氏距离”,而内核类型参数设置为多项式方差分析epachnenikov范围:真正的
  • kernel_a该参数为支持向量机内核参数a数值测量参数设置为“核欧氏距离”,而内核类型参数设置为神经。范围:真正的
  • kernel_b该参数为支持向量机内核参数b数值测量参数设置为“核欧氏距离”,而内核类型参数设置为神经。范围:真正的

教程的过程

DBSCAN运算符对Ripley-Set数据集的聚类

在许多情况下,不能定义目标属性(即标签),数据应该自动分组。这个过程称为聚类。RapidMiner支持广泛的聚类方案,可以像使用其他学习方案一样使用。这包括与所有预处理操作符的组合。

在这个示例过程中,使用Retrieve操作符加载'Ripley-Set'数据集。注意,标签也被加载了,但它只用于可视化和比较,而不是用于构建集群本身。在此步骤中插入一个断点,以便在应用DBSCAN操作符之前查看ExampleSet。除了标签属性,'Ripley-Set'还有两个真实的属性;'att1'和'att2'。DBSCAN操作符应用于该数据集,所有参数都具有默认值,epsilon参数除外,该参数被设置为0.1。运行该流程,您将看到DBSCAN操作符创建了两个新属性。创建id属性是为了清楚地区分示例。创建cluster属性是为了显示示例属于哪个集群。每个示例都分配给一个特定的集群。 The examples in 'cluster_0' are considered as noise. Also note the Plot View of this data set. Switch to Plot View and set the the Plotter to 'Scatter', x-Axis to 'att1', y-Axis to 'att2' and Color Column to 'cluster'. You can clearly see how the algorithm has created three separate groups (noise i.e. cluster_0 is also visible separately). A cluster model is also delivered through the cluster model output port. It has information regarding the clustering performed. Under Folder View you can see members of each cluster in folder format.