添加最后一个索引对时间序列数据的影响
亲爱的大家,我正在研究一个时间序列数据。参考所附流程。
1.目前-我使用“进程窗口”生成特征,并将聚合提取为子进程。提取的特征被用来训练我的机器学习模型。leyu体育是真的吗
2.我注意到-通过在进程窗口操作符的参数中为“添加最后一个索引到窗口属性”选择yes,大大提高了模型的性能。即从67%的准确率提高到97%的准确率。我注意到不同之处在于在生成的特性列中增加了一个额外的列。我不明白这是如何影响模型性能的。
考虑这个97%的表现是否正确?有人能帮助理解添加最后一个索引的作用吗?谢谢。
登记
thiru
1.目前-我使用“进程窗口”生成特征,并将聚合提取为子进程。提取的特征被用来训练我的机器学习模型。leyu体育是真的吗
2.我注意到-通过在进程窗口操作符的参数中为“添加最后一个索引到窗口属性”选择yes,大大提高了模型的性能。即从67%的准确率提高到97%的准确率。我注意到不同之处在于在生成的特性列中增加了一个额外的列。我不明白这是如何影响模型性能的。
考虑这个97%的表现是否正确?有人能帮助理解添加最后一个索引的作用吗?谢谢。
登记
thiru
标记:
0
答案
德国多特蒙德
谢谢你的回复。在这种情况下,我理解-这个额外的列只是“每个窗口大小重复一个日期值”。(如果我说错了请指正。)我想这里是火车上。我不确定。
顺便说一句,在“进程窗口”操作符中使用这个参数有什么用,您能对它如何确定或改进时间序列模型的性能提出一些见解吗?。谢谢。
登记
thiru
操作符“处理窗口”或“窗口”—之前有参数“在窗口属性中添加最后一个索引”。现在,在当前版本9.8.001中,该选项不可用。
对于同样的数据和过程,我得到了67%的准确率,
但现在我得到- 97.8%(现在我没有选择使用- '添加最后索引')。
我不确定我做的事情是否正确。请您再确认一下。谢谢。
thiru
德国多特蒙德