加入SPM的后处理步骤
嗨,伙计们,
我最近运行GSP来识别数据集中频繁的顺序模式,我想对结果进行一些后处理。
我强烈怀疑我的一些频繁序列嵌套在父序列中(即,序列和序列实际上是相同序列的一部分)。
我怎样才能:1)直观地检查结果模式,以确定我的数据集的哪些行被包括作为每个频繁序列的一部分,或者2)运行一个后处理步骤,连接子序列,这样只有父序列保留作为结果的一部分。
换句话说,我如何:
1)打印GSP分析的结果,这样我就可以查看数据集中被识别为每个频繁序列的一部分的行,从而允许我轶事地识别和消除作为父序列一部分的子序列。
2)运行后处理步骤,在运行我之前编写的相同进程之前连接子序列,以确定序列是否满足适当的标准(支持等)。这是遵循Perrera和同事的建议,(2008)<显然我太新手了,不能链接文章(甚至留下URL)。因此,这篇文章的题目是:《在线协同学习数据的聚类和顺序模式挖掘》。这个连接步骤的目的是从结果中消除子序列,只留下父序列。引用Perrera等人的话,“如果删除s1的第一项获得的子序列与删除s2的最后一项获得的子序列相同,则序列s1与s2连接。”例如,是3序列 and ." (p 766).
任何建议/指导都是感激的。如果RapidMiner不是这种分析的合适工具,我很乐意接受使用R或其他工具的指导。
此外,如果这个问题已经在其他地方得到了回答,请通过链接适当的页面接受我的道歉。
谢谢你!
乔尔
乔尔
0