构建模型

下面的页面记录了web应用程序RapidMiner Go。要安装RapidMiner Go，您需要一个本地许可。请联系销售了解更多信息。

RapidMiner Go旨在帮助您从数据中构建预测模型-快速简单。你所需要的只是一个数据集(比如Excel电子表格)和一些你想要预测的东西。就是这么简单!

正如在介绍，我们会指引你采取以下步骤:

上传数据上传所有可能相关的数据
选择列——选择要预测其值的列
选择输入决定哪些是相关的，哪些是不相关的
选择模型——选择并构建一个或多个模型

在步骤(4)结束时，您将创建一个或多个模型。在那之后，你可以检查模型然后决定哪一个最适合你的目的。

步骤1:上传数据

你的隐私很重要。请不要上传包含个人身份信息的数据。

我们建议您删除包含此类信息的列，或者使用匿名化或pseudonymization。

RapidMiner Go接受电子表格格式的数据，无论是Excel还是CSV，具有以下特点:

无限的行
最大500列
最大50mb文件大小

如果您没有可用的数据集，并且您只是想快速查看应用程序，请按下按钮使用样本数据集，并选择“流失预测数据”。否则,按上传数据。

CSV	Excel
文件扩展名:.csv .txt 将列名放在第一行(标题) 分隔符:逗号、分号、制表符或空格避免在列名中使用特殊字符	文件扩展名:.xls， .xlsx 将列名放在第一行(标题) 只在第一张表格上添加你的数据

步骤2:选择Column

在接下来的内容中，我们将讨论选择样本数据集“流失预测数据”的结果。这些数据涉及电话公司的客户，他们可能会也可能不会放弃他们的订阅。

其中一个数据列，我们叫它目标列——有你想要预测的值。在我们当前的示例中，目标列是“流失”，因为我们想要预测谁会流失。在点击之前，从下拉菜单中选择“流失”下一个。

通常，目标列的值可以是数值的(如“CustServ Calls”)或分类的(如“Churn”)。根据你的目标栏，问题可以分为以下三种:

二元分类-分类数据，两个可能的值(如“流失率”)
多类分类-分类数据，三个或更多可能的值
回归-数字数据(如“客户服务查询”)

选择一个列，RapidMiner Go将自动检测它要解决的问题类型。下面给出了每种问题的附加细节。

二元分类(预测两个可能值中的一个)
有些问题只有“是”或“否”的答案。例如，如果你做了一项医学检查，结果通常被描述为积极的或负：
- 积极的检查发现了你要找的东西(例如，感染)。
- 负:检查没有发现你要找的东西(例如，没有感染)。
如果结果是肯定的，可能需要进行更彻底的调查;如果结果是否定的，则不需要更多的工作。可以说，阳性结果更重要，值得高度重视，因为医疗工作的重点是治疗感染。
我们当前的问题是，“流失”的值是“是”或“否”，这是一个二元分类问题的例子，重点是“是”，因为我们想要预测哪些客户会流失。
多类分类(预测三个或多个可能值中的一个)
如果您的目标列有三个或更多非数值值，你的问题被称为多类分类问题。
回归(预测数值)
如果您的目标列是数字，并且您希望预测该列中的数字，则您的问题称为回归问题。例如，在我们的“客户流失预测数据”中，有一个名为“CustServ Calls”的列，其值是客户呼叫客户服务的次数。

步骤3:选择输入

并非所有的数据列都能帮助您进行预测。通过丢弃一些列，您可以加快模型构建和/或改进模型性能。但你是如何做出这个决定的呢?关键是要寻找模式。如果数据中没有一些变化和一些可识别的模式，这些数据就不太可能有用。

RapidMiner Go用来确定特定列是否有用的四个标准是:

相关-这些值与目标列有多接近?
ID-ness-价值观之间的差异有多大?
稳定-这些值彼此之间有多相似?
失踪-列中缺失的值相对于总数有多少?

每一列都标有质量标签:绿色、黄色或红色。

绿色质量好	黄色的需要检查	红色的质量差
	低的相关性高度的相关性	高缺失值高ID-ness 高稳定性

默认情况下，RapidMiner Go将取消选择带有红色或黄色质量标签的列，但您当然可以自由选择或取消选择您喜欢的任何列!通常默认值可以很好地工作，但是如果列被标记为黄色标签并且有高度的相关性。

为了理解高相关性的问题，考虑一个极端的例子:完全相关性。如果你有两列X和Y, X = Y，那么相关性是100%，X只是Y的另一个名字。如果你预测X，你会放弃Y列，因为它是冗余的。即使相关性小于100%，它也可能是冗余的。问你自己以下问题:在做出预测之前，我是否可以访问高度相关列中的数据?如果不是，数据就没有用处。

然而，在某些情况下，该列对于预测是有用的，正是因为它与目标列高度相关;如果你排除它，你就有风险破坏你的模型。只有你自己能肯定。如果有疑问，您可以创建两个模型:一个有高度相关的列，另一个没有，以帮助您决定哪个是最好的。

选择输入，流失预测数据

RapidMiner Go通过我们的流失预测数据识别出以下问题:

高ID-ness:“电话”号码是一个ID，对每个客户都是唯一的。它在预测客户流失方面没有任何价值。
许多缺失值:只有3%的客户有国际收费(“Intl Charge”)，所以这一列数据不能告诉我们太多。
低的相关性“账户长度”和“客户流失率”之间没有任何关联。似乎客户与电话公司联系的时间与他流失的可能性之间几乎没有关系，所以“账户长度”不太可能有用。

默认情况下，取消选择所有这些数据列。还有一列已取消选择，但需要进一步讨论。

高度的相关性“客户服务电话”与“客户流失”有57%的相关性

显然，客户服务电话的数量是客户流失的一个很好的指标。如果客户反复打电话给客服，电话公司最好采取积极措施留住客户。但是，您想在构建模型时包含“CustServ Calls”吗?让我们回到刚才提出的问题:在进行预测之前，我是否可以访问高度相关列中的数据?在这种情况下，答案是是的。因此，我们选择在我们的模型中包含“CustServ Calls”，并理解模型的预测将严重偏向于该列中的值。

跳转到前面查看结果与没有客户服务电话数据