时间序列扩展新版本0.1.2与ARIMA训练器,移动平均线,和更多…

sgenzersgenzer 12管理员,版主,员工,RapidMiner认证分析师,社区管理员,成员,大学教授,PM版主职位:2959年社区经理
2018年11月编辑 知识库
large.png

[摘自博客文章2017年10月17日由@tftemme

时间序列扩展(市场).

在这篇文章中,我想简要介绍一下alpha 0.1.2版本中已经提供的功能。

samples_folder.png图1:安装时间序列扩展后,RapidMiner Repository面板中的时间序列扩展样本文件夹的图像。

时间序列扩展样本文件夹

从市场下载扩展后,它会添加一个新的文件夹,称为时间序列扩展样本文件夹到您的存储库面板。它包含一些时间序列数据集和一些流程模板。

在这篇博文中,我还将使用这些数据集和模板过程的变体来演示时间序列扩展的特性。
这篇文章中展示的过程也附在文章中,所以如果你愿意,你可以自己尝试一下。

移动平均滤波器

我要展示的第一个运算符是移动平均过滤器。为了证明它的目的,我想分析“休伦湖”数据集。它描述了休伦湖的表面水位(维基百科)在1875年至1972年。

当您从Samples文件夹加载数据时(图2中的红线),您可以看到表层在不同的尺度上显示了一些变化。有一些时间窗口有高表面和低表面。但也有一些小的变化,可以看到有噪声的数据。

为了平滑这些数据,我们可以使用移动平均过滤器操作符。移动平均过滤器将过滤值计算为对应值周围的值的加权和。权重取决于过滤器的类型。目前支持三种不同的类型:简单的, "BINOM,和”SPENCERS_15_POINTS".

为“简单的“称重的重量都是相等的。这个过滤器也被称为滚动平均值、滚动平均值或类似的术语。结果如图2中的蓝线所示。

huron_simple_filtered.png图2:休伦湖数据集的结果视图。原始数据(红线)和简单移动平均滤波器的结果(蓝线)显示。

平滑效果是清晰可见的,但也有一些不太明显的特征,比如从过滤数据中去除1929年的大峰值。“BINOM“过滤器类型可以改善过滤。在这种过滤器类型的情况下,权重遵循二项式表达式(1/2 + 1/2s)^(2q)的展开。例如,对于q = 2,权值为[1/ 16,4 / 16,6 / 16,4 / 16,1 /16]。

对于较大的过滤器尺寸,权重近似于正态(高斯)曲线。这种过滤器类型能够平滑数据,但保留数据中的更多特征。结果如图3所示。

huron_binom_filtered.png图3:休伦湖数据集的结果视图。原始数据(红线)和BINOM移动平均滤波器的结果(蓝线)显示。

第三种过滤器类型(SPENCERS_15_POINTS)是一个特殊的过滤器,不适用于这个用例。

华宇电脑

在许多用例中,我们不仅想分析历史数据,还想预测未来的值。因此,我们可以使用ARIMA模型(维基百科)来预测该模型所描述的时间序列的下一个值。

例如,我们可以使用ARIMA训练算子将ARIMA模型拟合到休伦湖数据集的时间序列值。现在我们使用ARIMA Trainer Operator的默认参数:p = 1个自回归项和q = 1个移动平均项。

图4显示了RapidMiner流程(包括上面描述的移动平均过滤器操作符)。

huron_process.png图4:分析休伦湖数据集的RapidMiner过程。其中包括两个移动平均滤波算子,以及ARIMA模型的拟合和数据集未来10年的预测。

应用预测操作符计算未来10年的预测值。预测的结果和原始的exampleeset(包含原始数据和过滤后的数据)被连接在一起并传递到结果端口。

图5显示了休伦湖原始数据(红线)和预测值(蓝线)。

huron_arima.png图5:休伦湖数据集的结果视图。图中显示了原始数据(红线)和使用ARIMA模型预测的结果(蓝线)。

Differentation

为了演示差分运算符的用法,我使用时间序列扩展样本文件夹中的每月牛奶产量数据集。数据如图6(红线)所示。

milk_lag_1.png图6:每月牛奶产量数据集的结果视图。原始数据(红线)和滞后= 1的差分算子的结果(蓝线)显示。

很明显,数据中有季节性的变化。此外,从1962年到1972年,牛奶产量增加,此后大致保持在同一水平。

如果我们对牛奶产量本身的增加感兴趣,我们可以使用差分算子对数据进行微分。结果(带有参数滞后设置为1)也显示在图6(蓝线)中。数据再次受到季节性因素的影响,因此很难找到牛奶产量增加改变其行为的时间窗口。

此时参数滞后可以使用。差分运算符计算新的值为y(t+滞后)- y(t)。所以,滞后= 1我们计算每月的增量。如果我们使用滞后= 12,我们计算从一个月到明年同月的增长,去除差异化数据中的季节性。结果如图7所示(红线)。

milk_lag_12.png图7:差异化的每月产奶量数据集的结果视图。差分应用滞后= 12,从数据集中去除季节性。

我们现在可以看到,从1963年到1973年,每年的增长大约是15磅,1964年、1967年和1972年的增长甚至更高。在1973年、1974年和1975年至1976年之间,月产量甚至有所下降。

所以这里差分算子让我们有可能从数据中去除季节性,从而更好地了解数据的整体情况。

额外的运营商

此外,时间序列扩展还提供了更多的操作符:

  • 归一化操作符为您提供了归一化时间序列数据的可能性。

  • 对数运算符使您可以将自然对数或公共对数应用于时间序列数据。

  • 生成数据(ARIMA)为您提供了模拟时间序列数据的可能性,这些数据由ARIMA模型生成,其中参数可以由用户指定。

  • 检查等距操作符检查时间序列数据集的索引属性是否在毫秒级上等距。

图8显示了用于分析每月牛奶产量数据集的RapidMiner过程。上面描述的差分运算符以及归一化运算符和对数运算符(后一个用于演示运算符的应用)被使用。

milk_process.png图8:分析每月牛奶产量数据集的RapidMiner过程。包括两个差分运算符,以及一个对数运算符和一个归一化运算符。

以这第二个过程结束这篇博文。在下一篇文章中,我将详细介绍如何使用ARIMA训练器和应用预测操作符,以及将其与优化操作符之一结合使用的可能性。

请随时在网站上发表你的每一个bug、可用性问题、功能要求或任何反馈产品反馈区在RapidMiner社区。

(作者@tftemme来自RapidMiner Research]

KPL Pavithra_Rao Montse topaz_n

评论

  • MontseMontse 成员职位:19Maven
    @tftemme

    我在下载您附加的进程时遇到了一些问题。
    我已经安装了时间序列扩展,我可以打开模板没有任何问题。我可以运行它。
    但当我试着打开你的*。rmp文件,那么RapidMiner Studio不识别这些操作符。

    当我试图将其打开到RapidMiner Studio时,我将错误附加到两个进程中

    谢谢你!
    最好的问候,
    Montse
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    @Montse时间序列操作符不再包含在一个单独的扩展中,而是现在被合并到Studio的标准版本中(从RapidMiner 9开始)。因此这个线程中的旧进程可能因为这个原因而无法工作。但是如果你有RapidMiner Studio版本9。x,那么您应该能够在Modeling>Time Series下找到当前的操作符,并且操作符都有教程流程的链接。在“样本”下还有一个名为“时间序列”的新子文件夹,其中有几个时间序列示例过程和数据集。
    当然,如果你想在RapidMiner中学习更多关于时间序列建模的知识,你可以加入我关于这个主题的专家课程,该课程将于3月1日开始//www.kenlockard.com/training/)!
    布莱恩·T。
    Lindon合资企业
    乐鱼体育官方app数据科学咨询由认证的RapidMiner专家
    sgenzer
  • tftemmetftemme 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,RMResearcher,成员职位:164RM研究
    @Montse

    这里没有什么要补充的,感谢@Telcontar120.如前所述,操作符现在与RM Studio捆绑在一起,该线程进程中的操作符不再工作。但是您可以使用RM Studio中的程序来重新构建我在这里演示的过程(这可能是熟悉操作符的一个很好的教训)。

    最好的问候,
    费边

    Telcontar120 sgenzer
  • MontseMontse 成员职位:19Maven
    哦,太棒了!
    谢谢你的意见,@Telcontar120而且@tftemme

    最好的问候,
    Montse
登录注册置评。