BUG REPORT:文本挖掘,聚类过程

YungChengYungCheng 成员职位:1新手
当我尝试运行文本挖掘的聚类过程时,出现了错误消息。流程、错误消息和csv文件附在下面。
标记:

最佳答案

  • jacobcybulskijacobcybulski 成员,大学教授职位:391独角兽
    解决方案接受
    你好,你没有包括实际的RMP文件,所以我只是猜测可能出了什么问题。你的数据有超过20K个例子,你的文本有1000个独特的术语,k-means聚类不是很好地处理1000个属性。所以我假设你的电脑内存不够了。为了测试这一点,我建议将样本数量减少到1000(仅用于测试)。更重要的是,您需要减少解析过程生成的术语数量。所以我建议在Process Documents from Data中进行修剪,使其简单,例如从5%到30%的百分比,这可能会使属性的数量少于300个。如果有效,就使用100%的数据。我还注意到,在聚类之前,您还没有对数据进行规范化,因此很难对数据进行可视化分析。好运!
    雅各
    lionelderkrikor YungCheng
    登录注册置评。