聚集聚类(RapidMiner Studio Core)
概要
该操作员执行集聚聚类,这是层次聚类的自下而上策略。该操作员支持三种不同的策略:单链接,完整链接和平均链接。该操作员的结果是分层群集模型,提供距离信息以绘制为树状图。描述
聚集聚类是一种层次聚类的策略。层次聚类(也称为基于连接性的聚类)是一种聚类分析的方法,旨在构建簇的层次结构。层次聚类是基于对象与附近对象相关的核心思想,而不是与较远的对象相关。因此,这些算法将“对象”(或示例示例)连接起来,以根据其距离形成簇。群集可以在很大程度上用连接群集的部分所需的最大距离来描述。在不同的距离上,将形成不同的群集,可以使用树状图来表示,该簇解释了通用名称“层次聚类”的位置:这些算法不提供数据集的单个分区,而是提供广泛的层次结构。在一定距离上彼此合并的群集。在树状图中,y轴标记了簇合并的距离,而对象则沿x轴放置,以使簇不混合。
分层聚类的策略通常分为两种类型:
- 集聚:这是一种自下而上的方法:每个观察结果以其自身的群集开始,并且随着一个人向上移动层次结构,成对的簇被合并。
- 分裂:这是一种自上而下的方法:所有观察结果都以一个群集开始,并且随着一个人向下移动层次结构,分裂进行递归执行。
分层聚类是整个方法的全家,它们计算距离的方式有所不同。除了通常的距离功能选择外,用户还需要决定要使用的链接标准,因为群集由多个对象组成,因此有多个候选人可以计算到距离的距离。流行的选择称为单个链接聚类(对象距离的最小值),完整链接聚类(对象距离的最大值)或平均链接群集(也称为UPGMA,'未加权的对均值均值均值均值均值')。
该算法以自下而上的方式形成簇,如下所示:最初,将每个示例放在其自己的群集中。在当前的所有集群中,选择最小距离的两个簇。用一个新的群集替换这两个簇,并通过合并两个原始簇形成。重复上述两个步骤,直到池中只有一个剩余的群集。
聚类与将彼此相似的对象分组在一起,并且与属于其他簇的对象不同。这是一种从未标记的数据中提取信息的技术,在许多不同的情况下都非常有用。在营销应用程序中,我们可能有兴趣寻找具有类似购买行为的客户集群。
输入
- 示例集(数据表)
此输入端口期望一个示例集。它是附件示例过程中检索操作员的输出。
输出
- 集群模型(层次群集模型)
此端口提供分层群集模型。它具有有关执行的聚类的信息。它解释了如何合并群集以建立群集的层次结构。
- 示例集(数据表)
给出的作为输入的示例集将通过该端口对输出进行任何修改。
参数
- 模式此参数指定群集模式或链接标准。
- SINGLELINK:在单链层次聚类中,我们在每个步骤中合并两个群集,其两个最接近的成员的距离最小(OR:两个最小成对距离的两个簇)。
- 完整链接:在完整的链接层次聚类中,我们在每个步骤中合并两个簇的合并最小直径(或:两个最大成对距离的两个簇)。
- Averagelink:平均链接聚类是完整链接聚类对离群值的灵敏度与单链接聚类的趋势之间形成长链的趋势之间的折衷,这些趋势与群集的直观概念作为紧凑型,球形对象。
- measure_types此参数用于选择用于测量点之间距离的度量类型。可用以下选项:混合措施,,,,标称措施,,,,数值措施和布雷格曼的分歧。范围:选择
- 混合_MEASE当此参数可用时测量类型参数设置为“混合度量”。唯一可用的选择是“混合欧几里得距离”范围:选择
- nominal_measure当此参数可用时测量类型参数设置为“标称度量”。如果输入示例集具有数值属性,则无法应用此选项。在这种情况下,应选择“数值度量”选项。范围:选择
- 数字_measure当此参数可用时测量类型参数设置为“数值度量”。如果输入示例集具有名义属性,则不能应用此选项。如果输入示例集具有名义属性,则应选择“标称度量”选项。范围:选择
- 发散当此参数可用时测量类型参数设置为“ Bregman Divergences”。范围:选择
- kernel_type此参数仅在数值度量参数设置为“内核欧几里得距离”。内核函数的类型是通过此参数选择的。支持以下内核类型:
- 点:点内核由k(x,y)= x*y定义,即它是x和y的内部产物。
- 径向:径向核由EXP(-g || X-Y ||^2)定义,其中G是核γ参数指定的伽马。可调节的参数伽马在内核的性能中起着重要作用,应仔细调整到手头的问题。
- 多项式:多项式内核由k(x,y)=(x*y+1)^d定义,其中d是多项式的程度,它由内核度参数指定。多项式内核非常适合所有训练数据归一化的问题。
- 神经:神经内核由两个层次的神经网tanh(A X*Y+B)定义,其中A为alpha,B是截距常数。可以使用内核A和内核B参数调整这些参数。α的共同值为1/n,其中n是数据维度。请注意,并非A和B的所有选择都会导致有效的内核函数。
- Sigmoid:这是Sigmoid内核。请注意,在某些参数下,Sigmoid内核无效。
- ANOVA:这是ANOVA内核。它具有可调节的参数伽玛和程度。
- epachnenikov:epanechnikov内核是-1至1之间的U的us(3/4)(1 -U2),在该范围外的u中为u零。它具有两个可调参数内核Sigma1和内核度。
- Gaussian_combination:这是高斯组合内核。它具有可调节的参数内核Sigma1,内核Sigma2和内核Sigma3。
- 多功能:多Quadric内核由|| x-y ||^2 + c^2的平方根定义。它具有可调节的参数内核Sigma1和内核Sigma Shift。
- kernel_gamma这是SVM内核参数伽马。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为径向或者方差分析。范围:真实
- kernel_sigma1这是SVM内核参数SIGMA1。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为Epachnenikov,,,,高斯组合或者多Quadric。范围:真实
- kernel_sigma2这是SVM内核参数Sigma2。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为高斯组合。范围:真实
- kernel_sigma3这是SVM内核参数SIGMA3。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为高斯组合。范围:真实
- kernel_shift这是SVM内核参数移位。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为多Quadric。范围:真实
- kernel_degree这是SVM内核参数度。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为多项式,,,,方差分析或者Epachnenikov。范围:真实
- kernel_a这是SVM内核参数a。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为神经。范围:真实
- kernel_b这是SVM内核参数b。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为神经。范围:真实
教程流程
里普利集合数据集的聚集聚类
使用检索操作员加载“ Ripley-Set”数据集。在此步骤中插入断点,以便您可以查看示例集。该示例集应用了聚集聚类算子。运行该过程并切换到结果工作空间。注意结果的图表。您可以看到该算法尚未创建单独的组或簇作为其他聚类算法(如K-均值),而是结果是簇的层次结构。在文件夹视图下,您可以以文件夹格式看到每个群集的成员。您可以看到它是文件夹的层次结构。树状图视图显示了该聚类的树状图,该聚类显示了如何逐步连接单元素簇以制作簇的层次结构。