2016年11月10

博客

数据探索:许多数据准备工具[第一部分]

数据探索:数据准备的许多工具

乐鱼体育官方app数据科学从数据开始!如果没有对所查看的数据有一个坚实的理解,那么构建一个出色模型的整个努力就会变得毫无意义。数据科学和数据咀嚼(争论、粉碎乐鱼体育官方app等)的实际情况是,您将花费70%到80%的时间构建训练集,然后将剩余的时间构建模型。

在这里,领域专业知识肯定很重要,但理解您想要实现的目标也同样重要。你一定在……上花了不少时间数据探索.你必须思考你想要解决的问题,把正确的数据汇集在一起,然后检查它。

如果您只是将数据“拼凑”在一起并称之为训练集,那么您可能会发现您的模型将严重缺乏鲁棒性。最重要的是,我们需要强大的数据来建立强大的模型。

例如,如果您从SalesForce中提取销售数据,并使用关系数据库(RBDS)中的客户人口统计数据对其进行充实,那么在各个单元中可能会缺少数据和错误条目。虽然一些组织努力存储干净的数据集,但找到原始数据集是极其罕见的。

在清理数据集时,你可能会发现自己会问以下问题:

棘手的问题。

一个典型的例子

在您决定如何处理杂乱或质量差的数据之前,您必须检查数据,看看您得到了什么。我们将使用样本数据集——labor - negotiation——来自RapidMiner工作室.在Samples > data下找到它,并将其拖到设计画布中。确保将它连接起来并点击运行。

labor-negotiations-data-exploration

当我们按下play键时,执行这个简单的过程并将示例数据加载到内存中。这是探索数据需要采取的第一步。

查看数据

这是加载到RapidMiner的原始数据,当我们检查数据时,我们将从这个视图开始。

滚动这些数据,我们可以看到一些东西,我们有一个绿色的“类”列(RapidMiner称其为“属性”)。这个列被称为“特殊属性”,这意味着RapidMiner对它的解释与所有白色列的解释不同。

在本例中,绿色表示该列是一个“标签”。标签是RapidMiner将该列称为目标变量的奇特方式。您将在这一列上训练模型,然后使用它来预测或“评分”未显示的数据。

仅仅通过视觉检查这个数据集,您就会注意到许多“?””标志。每当RapidMiner遇到一个缺失的值时,它都会显示一个“?”。RapidMiner实际上并没有编辑你的原始数据集,它只是给你一个可视化的提示,提示你有一个缺失的值。

在示例数据文件中,我们总共有40行(“示例”是RapidMiner对“行”的漂亮称呼),因此在这里上下和从左到右滚动并不难,但现实情况是,您可能有100万行数据要查看。您不可能记住所看到的一切并记下每一个缺失的值。

RapidMiner通过提供一个统计窗口来帮助解决这个问题。从个人经验来看,当我构建一个训练集时,我将大部分时间花在Data、Statistics和Chart视图上。我使用这些来查看是否有任何可视模式(图表),数据中是否有任何奇怪的字符串条目(统计数据),或者只是查看原始数据集(数据)。

results-tabs

Statistics视图非常强大,它让人想起Python或R用户用来总结原始数据的“summary”或“head”命令。RapidMiner使这部分非常可视化和非常快速。

explore-statistics

在摘要视图中,我们看到在Name列、它们的Type列、Missing列和Statistics列下列出的所有列。这个视图让我们从一个完全不同的角度看数据。

我们可以看到,duration属性是一个Integer数据类型,它缺少一个条目,最小值为1,最大值为3。如果你点击那一行,你会得到一个小的直方图可视化,以快速了解该属性在数据集中是如何分布的。

explore-histogram

现在如果你点击Open Chart链接,你就会被传送到RapidMiner的图表功能,它会在你的数据探索之旅中为你提供额外的细节。

explore-histogram2

如果切换“图表样式”,则可以选择许多其他图表类型,并可视化数据的每个属性,以便快速生成洞察和识别问题。

奖励先进的图表

RapidMiner Studio还具有自定义制图功能。在图表标签的正下方是“高级图表”标签。这个界面更具互动性,你可以将不同的属性拖放到X轴或Y轴上,改变颜色和行类型等。

explore-advanced-charts

你也可以看看更老的先进的图表文件。它是为5.2版本编写的,但基本功能仍然相同。

现在我们已经使用了RapidMiner的内置发现工具集来自动提取统计数据和关键信息,我们对数据有了很好的了解。流程的下一步将是数据质量,我们将创建一个计划,并使用RapidMiner Studio中数百个其他数据准备功能中的一些,以修复我们在数据探索练习中发现的问题。

本文是我们的许多数据准备工具系列的一部分。如果你还没有这样做,请务必阅读以下内容:

下载RapidMiner工作室,它提供了支持企业完整数据科学生命周期的所有功能。乐鱼体育官方app

相关资源