聚类大小和质心表之间有什么关系?哪种模式更有意义?为什么?
NatalySimth
成员职位:8因素二世
在帮助
最佳答案
-
lionelderkrikor 版主,RapidMiner认证分析师,会员职位:1194年独角兽嗨@NatalySimth,
1.这里的“容量”指的是“数据点离它们的质心有多近”。
2.创造性能和肘部:
方法使用优化循环可以轻松创建这样的曲线优化参数而且集群距离性能操作符。
通过执行这样的流程,您将获得一个表质心距离内的平均值根据k(簇数):
然后你可以用a来画这个表系列类型图与:
—索引维数= k
-曲线级数=质心距离内的平均值。
得到如下曲线:
对于这个例子,我们可以发现拐点(肘)是在k = 4或k = 5的情况下。因此,对于这个用例,最优的数量簇k是k = 4或k =5。
这篇文章使用的过程在附件中。
希望这有助于
问候,
莱昂内尔
PS:要理解集群的概念,你可以访问RapidMiner Academy:关于这个主题有一些有趣的视频:
https://academy.www.kenlockard.com/catalog?query=cluster
9
答案
没有任何额外的信息,有一个大致的概念,你可以计算质心距离内平均它衡量集群的“容量”。(比较两种模型)。
对于这个,你需要写一个性能(集群距离性能)在您的流程末尾的操作符。
编辑:
我想更正/完善上面的解释:
假设您使用的是k -means算法,一种寻找最佳k(聚类数量)的方法,也就是根据“k”绘制“质心距离内平均值”,从而得到最佳模型。你会得到这样的曲线(或者相反的方向,因为在RapidMiner中质心距离内的平均值是负的):
最佳k,也就是更相关的模型与曲线的拐点相匹配。
希望这有助于
问候,
莱昂内尔
如何创建性能和肘?对所有这些方法来说仍然是新的。
欢迎你!
问候,
莱昂内尔
感谢你从上面给出的鼓舞人心的答案!从这个意义上说,也应该可以通过使用戴维斯-博尔丁指数来生成埃尔博指数以便比较主要标准,对吧?
提前感谢您的回答!
的问候!
但是你能否让我知道你是如何在rapidminer中得到惯性图的,因为它的选项只有质心和DB中的平均值。
我想根据惯性准则画出它。请帮助