BUG REPORT:文本挖掘，聚类过程

YungCheng · 2021年4月

当我尝试运行文本挖掘的聚类过程时，出现了错误消息。流程、错误消息和csv文件附在下面。

jacobcybulski · 2021年4月

你好，你没有包括实际的RMP文件，所以我只是猜测可能出了什么问题。你的数据有超过20K个例子，你的文本有1000个独特的术语，k-means聚类不是很好地处理1000个属性。所以我假设你的电脑内存不够了。为了测试这一点，我建议将样本数量减少到1000(仅用于测试)。更重要的是，您需要减少解析过程生成的术语数量。所以我建议在Process Documents from Data中进行修剪，使其简单，例如从5%到30%的百分比，这可能会使属性的数量少于300个。如果有效，就使用100%的数据。我还注意到，在聚类之前，您还没有对数据进行规范化，因此很难对数据进行可视化分析。好运！
雅各

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习的最佳实践。与你的同事建立联系。

BUG REPORT:文本挖掘，聚类过程

最佳答案