数据相似(RapidMiner Studio Core)
概要
该操作员测量给定示例集的每个示例与同一示例集的其他示例的相似性。描述
相似性操作员的数据计算了示例集示例之间的相似性。不再重复相同的比较,例如如果示例X与示例进行了比较y计算相似性然后示例y不会再将其与示例进行比较X计算相似性,因为结果将相同。因此,如果有n示例集中的示例,该操作员不返回n^2相似性比较。相反,它返回(n)(n-1)/2相似性比较。该操作员为相似性计算提供了许多不同的措施。可以通过参数指定用于计算相似性的度量。提供了四种类型的措施:混合措施,,,,标称措施,,,,数值措施和布雷格曼的分歧。
如果在交叉距离操作员的两个输入中提供相同的示例集,则可以将该操作员的行为视为接近交叉距离操作员的某个方案。计算相似性参数也设置为true。在这种情况下,交叉距离操作员的行为与相似性运算符的数据相似。有一些差异,例如在这种情况下,还将示例与自己进行比较,其次,结果的符号(即+ive或-ive)也不同。
分化
数据到相似性数据
相似性数据运算符的数据计算了示例集的所有示例之间的相似性。甚至将示例与自己进行比较。因此,如果有n示例集中的示例,该操作员返回n^2相似性比较。相似性数据运算符的数据返回仅视图的示例集,因此不应该存在内存问题。输入
- 示例集(数据表)
此输入端口期望一个示例集。它是附件示例过程中检索操作员的输出。其他操作员的输出也可以用作输入。
输出
- 相似(相似性度量)
一个相似性测量对象包含给定示例集的每个示例与同一示例集的每个示例之间的相似性,可以通过此端口传递。
- 示例集(数据表)
给出的作为输入的示例集将传递,而不会通过此端口更改输出。这通常用于在其他运算符中重复使用相同的示例集,或在结果工作区中查看示例集。
参数
- measure_types此参数用于选择用于计算相似性的度量类型。以下选项可用:混合措施,,,,标称措施,,,,数值措施和布雷格曼的分歧。范围:选择
- 混合_MEASE如果此参数可用,如果测量类型参数设置为“混合度量”。唯一可用的选择是“混合欧几里得距离”范围:选择
- nominal_measure如果此参数可用,如果测量类型参数设置为“标称度量”。如果输入示例集具有数值属性,则无法应用此选项。在这种情况下,应选择“数值度量”选项。范围:选择
- 数字_measure如果此参数可用,如果测量类型参数设置为“数值度量”。如果输入示例集具有名义属性,则不能应用此选项。在这种情况下,应选择“标称度量”选项。范围:选择
- 发散如果此参数可用,如果测量类型参数设置为“ Bregman Divergences”。范围:选择
- kernel_type此参数仅在数值度量参数设置为“内核欧几里得距离”。内核函数的类型是通过此参数选择的。支持以下内核类型:
- 点:点内核由k(x,y)= x*y定义,即它是x和y的内部乘积。
- 径向:径向核由EXP(-g || X-Y ||^2)定义,其中G是核γ参数指定的伽马。可调节的参数伽马在内核的性能中起着重要作用,应仔细调整到手头的问题。
- 多项式:多项式内核由k(x,y)=(x*y+1)^d定义,其中d是多项式的程度,它由内核度参数指定。多项式内核非常适合所有训练数据归一化的问题。
- 神经:神经内核由两个层次的神经网tanh(A X*Y+B)定义,其中A为alpha,B是截距常数。可以使用内核A和内核B参数调整这些参数。α的共同值为1/n,其中n是数据维度。请注意,并非A和B的所有选择都会导致有效的内核函数。
- Sigmoid:这是Sigmoid内核。请注意,在某些参数下,Sigmoid内核无效。
- ANOVA:这是ANOVA内核。它具有可调节的参数伽玛和程度。
- epachnenikov:epanechnikov内核是-1至1之间的U的us(3/4)(1 -U2),在该范围外的u中为u零。它具有两个可调参数内核Sigma1和内核度。
- Gaussian_combination:这是高斯组合内核。它具有可调参数内核Sigma1,内核Sigma2和内核Sigma3。
- 多功能:多Quadric内核由|| x-y ||^2 + c^2的平方根定义。它具有可调参数内核Sigma1和内核Sigma Shift。
- kernel_gamma这是SVM内核参数伽马。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为径向或者方差分析。范围:真实
- kernel_sigma1这是SVM内核参数SIGMA1。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为Epachnenikov,,,,高斯组合或者多Quadric。范围:真实
- kernel_sigma2这是SVM内核参数Sigma2。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为高斯组合。范围:真实
- kernel_sigma3这是SVM内核参数SIGMA3。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为高斯组合。范围:真实
- kernel_shift这是SVM内核参数移位。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为多Quadric。范围:真实
- kernel_degree这是SVM内核参数度。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为多项式,,,,方差分析或者Epachnenikov。范围:真实
- kernel_a这是SVM内核参数a。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为神经。范围:真实
- kernel_b这是SVM内核参数b。此参数仅在数值度量参数设置为“内核欧几里得距离”和内核类型参数设置为神经。范围:真实
教程流程
数据简介相似性操作员
使用检索操作员加载“高尔夫”数据集。在此处插入断点,以便您可以查看示例集。您可以看到示例集有14个示例。将数据应用于相似性操作员以计算示例的相似性。由于给定的示例集中有14个示例,因此将在结果工作区中看到91(14)(14-1)/2)在结果工作空间中可以看到的结果相似性测量对象中的相似性比较。