向Windows属性添加最后一个索引的影响-时间序列数据。

ThiruThiru 成员职位:One hundred.大师
2020年8月编辑 帮助
亲爱的所有人,我正在研究一个时间序列数据。参考所附的工艺。

1.目前-正在使用“进程窗口”生成特性,并将聚合提取为子进程。提取的特征用于训练我的机器学习模型。leyu体育是真的吗
2.我注意到,通过在进程窗口操作符的参数中选择“为窗口属性添加最后一个索引”,可以极大地提高模型的性能。即从67%的准确率到97%的准确率。我注意到其中的区别是在生成的特性列中增加了一个额外的列。我不知道这是如何影响模型性能的。

考虑这个97%的表现是正确的吗?谁能帮助理解添加上一个指数的作用?谢谢。

登记
thiru
lastindex.rmp 14.3 k
标记:

答案

  • jacobcybulskijacobcybulski 成员,大学教授职位:391独角兽
    因为我无法访问你的数据,所以无法完全复制。窗口属性中的最后一个索引是特殊的,添加它只是为了在新的示例集中保留索引(作为ID)。但是请注意,由于您聚合了时间序列,并且没有使用任何特殊属性(标签除外),最后一个索引无论如何都会消失。所以对结果没有影响。你一定在你的过程中改变了其他的东西。你可能会在不同的运行中从不同的数据混合中获得随机效果——消除分裂数据和交叉验证操作符中设置的随机种子,看看你是否仍然在两次运行中获得惊人的性能。同时也试着简化你的制作过程(比如去掉堆叠的整体)来隔离效果。
    雅各
登录注册置评。