您的商业智能平台可以提供一种将先进的分析技术集成到业务操作中的有效方法。观看本次网络研讨会,了解您的商业智能平台和数据科学平台(如RapidMiner)之间的强大集成。乐鱼体育官方app
大家好,感谢大家参加今天的网络研讨会“整合商业智能和数据科学”。乐鱼体育官方app我是RapidMiner的Hayley Matusow,我将是今天会议的主持人。今天我们请到了维贾伊·科图。Kotu先生是《预测分析和数据挖掘:RapidMiner的概念和实践》一书的合著者。自2016年8月以来,他一直是RapidMiner, Inc.的顾问委员会成员,从事分析工作超过10年,专注于预测分析、商业智能、数据挖掘、网络分析和开发分析团队。再过几分钟我们就开始了,但首先,我们要为在线上的人准备一些日常事务。今天的网络研讨会正在录制中,您将在一到两个工作日内通过电子邮件收到点播版的链接。您可以自由地将该链接分享给无法参加今天的现场会议的同事。其次,如果您今天在音频或视频方面遇到任何问题,最好的办法是尝试注销并重新登录,这在大多数情况下应该可以解决问题。最后,在今天演讲的最后我们会有一个问答环节。 Please feel free to ask questions at any time via the questions panel on the right-hand side of your screen. We’ll leave time at the end to get to everyone’s questions. I’ll now go ahead and pass it over to Vijay.
谢谢你,Haylee。1秒。完美的。大家好,感谢大家参加今天关于商业智能与数据科学集成的讨论。乐鱼体育官方app我很幸运能参与到这两个领域中来,我很高兴能谈谈如何将这两个领域结合在一起。也许这两个领域是任何公司中分析的最大体现,这两个领域构成了您想要进行的任何数据科学相关旅程的基础。让我先从——等一下开始我的讨论。ppt有些问题。我们把它换回来。
很好。我们重新上线。很好。让我先定义和区分这两个领域,商业智能和数据科学。乐鱼体育官方app因此,商业智能的基本目的是让更多人能够访问数据。如今,也许组织中的每个人都是BI工具的用户。在数据乐鱼体育官方app科学中,目的是在数据中找到有用的模式。你通常只有有限的分布,你的数据科学的输出可以在ppt或研究中。乐鱼体育官方app它涉及到执行团队和决策者,但可能不会广泛地涉及到组织中的每个人。因此,在BI中使用的技术是维度切片,而在数据科学中,它们是部署和利用算法。乐鱼体育官方app The output is insight and prediction in data science, but mostly access reporting or history reporting in business intelligence. So the technology that we use in BI space is OLAP tools or better known as BI tools and vendors like Tableau, Qlik, Cognos, MicroStrategy, and there’s lots of new players here. And the technologies used in data science is a mix of statistics, machine learning, and computing, and RapidMiner is one of the leaders in getting the data science in the hands of data scientists. So these two fields, even though they are involved in analytics, they have evolved separately. And why are they far apart right now? Move to the next one.
这两个领域独立发展的原因有很多。第一,BI实践者和数据科学实践者是分开的,他们所拥有的技能是分开的。乐鱼体育官方app他们通常生活在两个不同的组织。BI,它可以延伸到it,金融,产品组织。在数据乐鱼体育官方app科学中,无论是在研发部门,还是在实验室或产品组织中。我们使用的技术重叠也非常有限。BI领域有很多新的供应商。在数据科学领域有很多新的供应商。乐鱼体育官方app更重要的是,这些工具解决的具体用例和用例是不同的。一个负责所有的历史报告。 The other one deals with predicting or extracting insight in these cases.
让我们考虑一个场景中的一个故事。我先说,如果你是做市场营销的,写了你最近发起的一个活动的投资,假设是154%。这是一个经典的历史报告用例,这是BI可以非常有效地完成的工作。您可以分割这些数据,您的流量来自哪里,但它都与历史数据有关。让我们更进一步。如果我们知道未来的营销活动的投资回报率将是175%呢?这绝对比我们拥有的其他信息更有价值,过去活动的ROI是154%。虽然其他信息是非常相关和重要的,但新的信息更有操作性,它将帮助我们塑造我们未来的活动和做出一些决定。
让我们在这个旅程中更进一步。有56条线索有很高的转化倾向。这是最具体的。想象一下这两个信息都是集合信息。现在他们正在非常具体地研究那些有高转化率的实际客户。这很有趣。如果你更进一步呢?向这100个潜在客户发送15%的促销活动,特别是我们了解这些潜在客户,我们还可以预测促销应该是多少。这不是10%。应该是15%,也不应该是20% So this is getting more interesting. So if you notice from our previous example of ROI of launch campaign that was 154 all the way coming to this scenario, the value is increasing step by step. Actionability of this information is increasing, and also importantly, number of people who are involved in this decision making is increasing as well. In the first example, it might be the CMO or a few campaign managers who are interested in this information, but the last one, your organization is interested. Everyone in the marketing in the organization is interested, and the product manager is interested as well. So you have more people involved in making this more actionable, the better quality of this information.
首先,您开始使用的是经典的BI报告。这两个是预测分析。最后一个是更具规范性的分析,因为它规定了为整个公司实现价值的特定行为。所以这是非常非常有趣的思维转变对于我们将这两者结合在一起处理的情况来说。让我们看更多的例子。昨天的收入对比明天的收入最后一个是,如果这个特定的业务在这周一定会下降。这就变得非常具体了。现在我们来看另一个例子。上个月的客户数量与未来10天更有可能流失的客户数量与现在积极的客户数量的对比。这也变得非常具体。 Let’s go to another example. Production downtime. Report for history information versus what part of the process will fail in future and getting more information ahead if you use this replacement part in it for these five motors. So they are getting more specific in this. So this is a transition that is happening on what happened, what will happen, and how did it affect the future outcome.
因此,这种转变可以通过将商业智能,传统的商业智能,与数据科学结合来实现,还有其他一些原因我们应该这样做。乐鱼体育官方app第一,将历史信息、预测信息和规范性信息结合在一起。第二是分配。因此,乐鱼体育官方appBI中嵌入的数据科学可以有广泛的分布。BI已经有了这样庞大的分布,现在我们正在积累数据科学。乐鱼体育官方app所以你为数据科学创造的输出现在可以被整个组织中成百上千的人访问。乐鱼体育官方appBI在正确的时间将安全的相关信息传递给正确的人,数据科学可以利用它,因此如果您是大公司的一部分,输出可以在正确的时间通过适当的安全参数到达正确的人。乐鱼体育官方app它也为大数据以外的领域创造了一个更可行的环境。现在我们可以深入了解并将这些信息传递给正确的人。
好的。我们如何做到这一点?因此,在讨论如何实现的问题之前,我想先描绘一下我们试图实现的目标,所以让我们举一些真实的例子,看看当您将数据科学与BI集成时,您可以期望得到什么结果?乐鱼体育官方app好的。这是一个经典的BI模型。你从不同的来源获得数据。你把它放在一个特定的目标模式中,在它上面有一个BI工具,你正在创建仪表板、报告、特别查询。这个模型通过整合,比方说,客户数据,产品数据,员工数据,市场营销,一直运转良好。所以你有一个真相的来源。第二,这些都是联系在一起的,所以作为客户,你可以看到客户在社交媒体上谈论你的公司,以及客户已经购买了什么。 So you can bring all this data together. So it’s interesting. It’s also very relevant to source some of the information to other data as it’s filed?.
我们在BI中开发的仪表板被许多人使用,而且它也非常直观。例如,你在客户端的仪表盘,让我们看看这个。这是一个示例客户仪表盘。假设这个仪表板是为一个客户Acme准备的。它有一堆信息,按来源和不同领域的相关信息,经典的BI报告。但如果你能在上面建立一个数据科学模型通过把所有的购买数据,样本乐鱼体育官方app数据,创建一个计算模型,在最上面放一个大的警告,这个客户有很高的流失风险,我们必须发送一个特定的报价或我们计划的任何活动?如果它能提供这些信息呢?现在这些信息将被每一个客户经理使用,他们可以看到这些信息,而不是将所有搅拌风险客户的列表作为一个单独的文件发送。
二号人物。假设你是一个产品经理,在BI工具中有一堆相关的信息,如果你可以使用其中的一些信息,在其上创建一个推荐引擎,然后我们可以向产品经理提供相同的信息,“这是产品机会的相关性,都基于客户购买模式。”我们再举一个例子,Helpdesk仪表盘。因此,无论你在哪里发现我们在BI中报告的文本信息,这都是一个很好的用例,我们可以在此基础上进行文本分析,并进行情感分析。他们谈论的是产品吗?它是好的,坏的,还是其他的?这是一种很好的方法-无论你在哪里找到文本,这是一种很好的方法来解锁数据然后使用文本挖掘来挖掘数据。
下一个,关于预测,我们有历史报告。这很好,但我们可以在此基础上建立一些时间序列预测模型,并预测未来的表现。它可以获取过去业绩的信息,但它也可以结合我们可以拥有的其他信息和功能,我们可以在BI工具中以同样的方式显示它。
最后,想象有一个操作仪表板。你有一堆指标,但如果我们可以通过数据科学添加更多的信息,例如,将流失的客户数量。乐鱼体育官方app这是清单。打电话给他们,呼吁他们采取行动。二号人物。嘿,销售预测变了。这里的定价发生了变化。做一些场景建模。我们也会讲到双向BI。所以这里可能有一些参数我们可以改变看看预测会怎样。 Number three is on affinity of product dashboards, so you can provide some recommendations on it. We talked about some interpret analysis based on text data that we received from our customers, so marketing data. So the interesting thing here is a call to action, rather than just presenting information assets, we can mine some more information on top of it and provide some call to action. That’s getting into the world of prescriptive analytics.
很好。现在让我们讨论一些我们拥有的架构选项。因此,如果要将BI与数据科学集成,有几种逻辑上可行的方法。乐鱼体育官方app首先,让我们从我们已有的基线开始。这样就有了BI安装。假设你有一堆数据源,你把它放到一个数据仓库里,在它上面有一个BI工具,仪表板,类似于我们的模型,非常简化。在数据科学方面乐鱼体育官方app,为了对一个活动建模,你需要引入一堆训练集。假设它也是测试和验证集,我们正在创建一个模型,我们正在使用这个模型来为不可见的输入打分,以防分类和重新创建,在某些情况下,对结果建模而不是对数据打分,但这只是这里的一般框架。
那么我们如何将这两种工具结合在一起呢?第一,我们能做的就是将数据科学仅仅作为BI的输入。乐鱼体育官方app因此,在这种情况下,数据科学与BI乐鱼体育官方app安装是相当独立的。我们只有一个输入。例如,流失模型。乐鱼体育官方app数据科学可以每天向您发送客户ID和流失风险,而BI可以使用数据并在客户仪表板中显示它。因此,这是有效的,并且您完全独立地保持了两个不同的工具,除了BI的一个突触获得了它的源,但它也有点离线。如果有新的数据通过Spark和其他工具实时传输过来,我们将很难整合这两者。
第二,数据科学被用作建模工具乐鱼体育官方app,然后我们可以将该模型放入数据仓库或BI中。如果模型非常简单,我们有几种方法可以做到这一点。如果您有一个决策树,您可以在数据仓库中对它进行编码,就像在任何编程语言的生产环境中那样,或者您也可以在BI工具中对它进行编码。但其实很简单。或者您可以在这里进行PML导出。那么这种特定模式的优缺点是什么呢?pro是一个数据仓库模型,如果它足够简单,它甚至可以对新数据执行它。但缺点是,如果模型是一个生产质量的模型,你有多个不同的模型的集成,有些可能有,比如说,kNN模型和其他东西,所以我们很难真正移植它并在生产环境中可靠地执行这个模型。
让我们看看第三种选择。这是更完整的。在这种情况下,这两个数据仓库都可以作为数据科学工具的输入,因为它可以带来更多的信息,而且数据科学工具也可以在数据仓库之外乐鱼体育官方app具有额外的输入。我们在数据科学工具中进行建模,生产模型就准备好了,数乐鱼体育官方app据仓库为数据科学工具提供了这个看不见的输入,最后我们将这个核心数据的相关版本直接导入到BI工具中。这是有效的,这是一种单向集成,它利用了这两种工具的优势,数据科学具有健壮的建模能力,数据仓库有需要存储的最新信息,在BI中集成得非常好。乐鱼体育官方app这是一个在线积分。
更进一步,我们还可以做双向积分。与前一个模型的唯一区别是,输入的一些建模参数可以从OLAP工具中提供,并具有一些交互式仪表板,您可以在其中更改一些建模参数。最好的例子是,假设你想做客户细分,它有三种细分方式,但你想要更细粒度的细分,所以你可以在这里指定聚类参数有六个细分而不是三个细分。它可以实时发生,数据科学将其作为输入,建模并几乎实时地将信息发回。乐鱼体育官方app在许多情况下,这是由Web服务完成的。我们在Web服务中输入一些数据挖掘过程,模型几乎是实时执行的。这就是双向积分。
因此,在开始简短的演示之前,让我先快速研究一下规则,谁在做什么,以及我们如何利用BI将数据科学方面的输出扩大到更多的人。乐鱼体育官方app这个研究只是为了展示参与数据科学的人数,他们是专业的消费者,如果这有意义,生产者和消费者,它几乎有100倍,在某些情况下100乐鱼体育官方app0倍的影响当我们把数据科学的结果交到运营决策者手中时数据科学的影响可以被放大很多倍。另一个是商业智能和数据科学之间也有互补的技能。乐鱼体育官方app在BI方面,大量的数据工程,带来了这些信息。这两个角色有点重叠。在BI方面,我们主要处理OLAP和可视化,以及许多不同算法的数据科学。乐鱼体育官方app您的大部分时间可能会花在动作建模上,但也会花在优化和部署上,而BI团队通常专注于创建那些仪表板,并将正确的信息发送到正确的位置。对数据科学有一定的了解,对数据科学有一定的了解。乐鱼体育官方app事实上,这也是我的书的第一个任务,对于BI专业人士或核心数据科学专业人士以外的专业人士,他们可以理解数据科学,使用RapidMiner很好地介绍数据科学。乐鱼体育官方app
让我们进入实际的演示和原型。我要向你展示的是创建一个非常快速的过程,非常示例的过程,看看你能否使用市场上的一些BI工具来可视化这个过程。让我从一个例子开始。这张幻灯片和我展示的模型是一样的。如果您可以使用一些产品指示板—如果它可以使用一些产品细节并提供关于产品的建议呢?我举个例子,假设我们有电影这个产品。这里有一个电影的例子。完美的。很好。所以我们要做的是建立一个推荐引擎。 I’m going to take the items on the product as movies, but you can assume the items are products that is relevant for your enterprise. It could be anything. It could be widgets instead of movies, yeah. Users, other customers– pretty much everyone has customers, and now customers interact with the product by making that purchase decision, or in this case, they interact with the product by saying ratings. You have a name. They like this product or not like this product. And then it’s actually a case where they did not see this movie, so they don’t have opinion because they haven’t purchased it. Let’s say User Two would say N/A, N/A in these two movies, and last one said “Yes” to Imitation Game movie. And User Three and Four, similarly. So we have a utility metric where people have responded positively to a few movies that they have watched and some movies they haven’t watched. So what if, let’s say, I’m User Five, and I know I’ve responded positively to two of these movies, and the last one, the prediction objective is how would I respond to the last movie that I haven’t seen? Can we predict that rating? So the essence of recommendation engine is to predict rating for items that you have not purchased or the movies that you have not seen so that the ratings are very high for that movie, then I can recommend that movie to you. And this is how recommendation engine work. In this particular case, not go into the details, we are going to use, essentially, the user recommendation collaborative filtering. And it just looks at the information and see how correlated my ratings here, my given ratings in this case, the last row, and how correlated they are with other users so that I can be in the cohort of other users like me and how they have rated the last movie, in this case, The Imitation Game. So heuristically, it feels like I would like Imitation Game because of just visually looking at my rating in sync with other, particularly the user being rating here.
酷。让我实际进入演示部分,这里有一个例子,如果你刚才的是一个高级视图。这是更多的产品和更多的用户,你可以看到评分矩阵。你可以看到这也是一个非常稀疏的矩阵。显然这里有空白的列,这就是这里的空白单元格,这就是我们需要填充的,就像你在这里看到的。你可以用RapidMiner来创建这个推荐引擎,然后我们用Tableau来可视化这个推荐引擎是如何工作的。我在这里调用RapidMiner。太棒了。我现在展示的是一个例子。让我给你们展示一个新的过程。 I don’t want to type anything in the comment now. And let me create two datasets. This is movie-length dataset. It has 475K ratings. I just want to show you the inputs. Good. Similar to the example that I showed, and you can create this kind of dataset within your own company. All you need is your customer data and your product purchase data, bring it all together. So in this case, user ID, movie ID, rating, and timestamp, which we don’t need it.
下一个是另一个数据集,电影ID和标题。所以知道标题总是好的,而不仅仅是ID。为什么我们不把它们连在一起呢。
我会特别说明-完美。我指定需要连接的列。我们现在在数据准备方面。需要加入Movie ID。这是简单的。在整个数据集中还有一列。我不需要它,所以我将使用“Select attributes”来忽略名为“Timestamp”的属性。酷。到目前为止,一切顺利。对于建模,我们将使用推荐引擎,那现在在扩展中是可用的,特别是,我将在这里使用协同过滤。 So I’m using user kNN and remember, I need to find users similar to my profile and my rating profile, so I can see their ratings and aggregate it and predict a rating for the movies that I haven’t seen. There is one operator that we need, a step before this. It’s “Set row.” It’s a very specific operator because we need to declare “Rating” as my objective of the process. So in this case, I’m going to do name, rating, the label. And also there’s two specific things I need to do. I need to let the algorithm know which ID is considered “Item” and which ID I need to consider as “User.” Hopefully my spelling is right. Perfect. And now let’s execute the model. So it has about 75,000K. So it may take a few seconds then. And perfect, the modeling works. And I think this is collaborative filtering. That’s perfect. Now let’s actually use this for prediction as well, so I’m going to just do split data, and then explain because I need to use this as a test and training set as well. I’m going to use 95% of my data to actually model it, and I’ll use the rest for the prediction. Last one is, let’s apply this model. Cool. And we have model here, and 5% of data here, and I’m in that 5% right now. And we’ll do the model as well. Fantastic. Now the modeling works. So I’m just using this data to test my scores as well and the prediction, the last column, and the rating. You can use it for just a visual comparison. Say it’s stuck at 5. I’ve predicted at 4.1, 4.5. Sounds about right. And some of the 2 ratings that I have given is also predicted to be 2.4. So it is reasonably right, and obviously, you can use performance operator for you to look at an aggregation for all these performance parameters here in the model.
完美的。现在你有了一个模型。它被用来预测特定用户的评级,我们可以把它用作推荐引擎。我们能在Tableau中得到这个输出。这里我要展示一件东西。它会保存这个文件并存储在服务器上同时创建一些Web服务,我们可以调用Tableau来获取这些信息。这就是你从同样的模型和输出中得到的全部好处。首先,这是所有信息和评级的总结,以及评级是如何传播的,这是我们在所有类型中获得的评级,因为你可以对这些数据进行切割,这就是BI所做的。BI工具非常有效地做到了这一点。但是你看到的点是特定的顾客和它是如何传播的。 But let’s take one customer example because that is what you might be dealing in getting one customer’s input.
点它时,Tableau仪表板中会显示一些信息。第一,这是我看过的所有电影的清单。在你的业务中翻译它。这可能是该特定客户已购买的所有商品的列表。这是一个客户。第二点是——这是最重要的部分——我们在这里推荐这些电影,基于所有你们看过和评分的电影,这是推荐列表。这是我们可以集成到产品仪表板中的输出。这是一个如何在RapidMiner中创建模型的例子使用BI工具提取,可视化信息,并将其放入相关的仪表板中,你可以发送它-你可以将它放入客户仪表板中,所以当任何人在查看客户仪表板时,我们就可以想出一个推荐产品的列表。乐鱼全站app下载
让我回到我的演示。这是将数据科学与商业智能集成的关键。乐鱼体育官方app还有一些其他的例子。在本例中,它是Qlik。有一个非常相似的,很好。酷。在这种情况下,我们有Qlik来可视化数据,他们使用的过程是类似的。这是利用他们可以通过关联算法提出的向上销售机会。类似地,实际的模型是在RapidMiner中创建的,我们使用Qlike来可视化这些数据。
回到我们的幻灯片,BI工具或团队有什么好处让我们知道为什么要集成数据科学?乐鱼体育官方app对于BI,数据科乐鱼体育官方app学通过提供预测性和规范性数据以及历史数据提供了巨大的价值,这是第一点。第二,现在我们正在进入可操作部分,这是任何人提供给BI仪表板的关键反馈之一。这些信息有多大的可操作性?现在我们有数据科学在上面或嵌入其乐鱼体育官方app中,信息变得更可操作,并将正确的信息提供给正确的人。最后一个是行动号召。这是这个想法的另一个延伸而不仅仅是显示预测信息,我们可以通过实际提供具体的操作来使它更具有规范性。这比仅仅预测一个特定的数据点提供了更多的价值。
对于数据乐鱼体育官方app科学,BI首先提供了广泛的分布。它将数据科学专业人员创建的输出交到整个组织(超过乐鱼体育官方app1000人)的实际决策者手中,它可以放大我们使用BI的安全平台在数据科学方面所做的工作。它还为用户提供了安全性,让他们接受来自数据科学的一些结果,因为他们已经熟悉BI中提供的所有信息,这为那些信息提供了扩展。乐鱼体育官方app最后一个是关于训练集和模型部署的。训练集可以从数据仓库中获取,因为它通常涉及多个流程,这可能会带来额外的好处,而且它还提供了非常有效的模型部署。最重要的是,作为一名数据科学专业人员,您正在创造一乐鱼体育官方app些有价值的东西。任何创造者都希望自己的产品能够被各种各样的人使用。这给我们带来了最大的满足感,而BI为我们提供了一个非常好的部分,可以将您在数据科学方面所做的所有工作部署到各种各样的人手中,并据此做出决策。乐鱼体育官方app
到此为止,我将结束我的讲座并开始提问。
太好了。谢谢你,维贾伊,作为对观众的提醒,我们将在接下来的几个工作日内通过电子邮件发送一份今天演讲的录音。我知道有几个问题,所以我们会继续把幻灯片和录音都发给你们。就像维贾伊说的,现在是问答时间了,看起来我们已经有几个问题了,如果你们有任何问题,请随时提交到屏幕右边的问题面板。我们现在就来谈谈这些问题。所以第一个问题是,“我如何将我的RapidMiner模型转移到Tableau?”
是的。目前,我们有几种方法可以做到。我所展示的模型示例实际上是Tableau格式的导出,在RapidMiner中有一个扩展操作符可用来导出数据,然后将数据导入Tableau。这就是RapidMiner端当前可用的选项。
但我认为公平地说,并补充说,模型执行仍然发生在RapidMiner中。来回发送的内容可以是评分结果和/或模型的参数,以评分或在RapidMiner中运行。导出的并不是模型本身。
是的。这是正确的。对,这是一个得分的结果。这是对我们讲过的分析架构的参考,第三和第四。这里没有模型导出
Tableau不运行模型。
正确的。
太好了,谢谢。刚才是来自RapidMiner的Bill在插话。下一个问题,有点像那个问题的后续。它说,“那么RapidMiner也可以与Qlik合作吗?”
是的,我想得很多。在Qlik和我能提供的一个例子之间有一定程度的集成,你可以导出RapidMiner的结果-抱歉。您可以在RapidMiner中创建一个模型,并使用一个服务器模块为我们执行Web服务,该Web服务可以集成为Qlik的源。它还提供了双向集成。例如,如果您更改Qlik中的建模参数,您几乎可以实时地得到结果。
我想说的是还有一个问题和这个问题相吻合。那么积分-因为现在又有一个进来了。这很有趣。现在出现的问题不仅是与Qlik的整合,还有与Pentaho和Power BI的整合。人们有不同的发音方式。但这其中的实质是这样的。从两个层面来考虑。有一层是我们将评分结果传递给这些产品。乐鱼全站app下载现在我们已经构建了导出的本地连接器——例如,Tableau,我们可以创建一个TDE文件。对于Qlik,我们可以创建QBD,如果我有正确的扩展名,文件。 But for others, it’s as simple as exporting out to a CSV or other importable file format that can be read directly into the front-end tool of choice. The second level is the bidirectional integration, meaning, do you have the ability to stay inside your BI front end or visualization front end and interact in both the model, real-time, run the score, send some parameters, score the results, and bring back the results? Today, we have published and built the two integrations for Tableau and Qlik, but depending upon the API capabilities of the front-end technologies, it’s doable. So we have the ability to both provide our API to invoke the models as well as share data if the function is prioritizing which BI tools are out there. But as users of those BI tools, there’s nothing that precludes you from doing that because our API is open. All right? We can go to the next question.
太好了。这个问题出现得更早。这个人问的是第4个分析架构。他们问:“你能再举一个关于架构的例子吗?”
好的。我可能会有更多的例子。让我看看幻灯片。这是BI与数据科学的双向集成。乐鱼体育官方app一个例子是我们提供的,它改变了建模参数。另一个例子是输入数据本身的实际更改。因此,BI工具中可能有一些最新的数据,这些数据可以作为数据科学工具的输入发送给它进行评分,并返回评分结果。乐鱼体育官方app所以对于任何模型我们说异常检测。异常检测实际上是我们讨论的另一个有趣的领域,因为您也想要注意数据异常。所以使用异常算法是一个有趣的应用,让我们看到任何数据质量问题。 As a BI professional, you would care about the data governance, the data quality, the information that is available to users. Don’t want to have some anomalies there. That’s another one example. There are more examples there, Bill?
当然。简单地说,我不是数据科学家。我只是假装。但作为数据科学的使用者,我们在内部乐鱼体育官方app做的一件事,吃我们自己的狗粮,就像他们说的,是创建一个预测模型。所以当我研究我的历史销售结果时,我想要考虑一些参数,比如产品配置,交易ASP,也就是交易规模,然后开始在区域基础上进行研究。我将运行模拟,这样我就可以坐在我们使用的BI工具旁边,然后我将返回ASP的不同更改或服务器出售的Studio的不同数量,然后我将按下一个按钮。它会返回到RapidMiner中,运行分数结果,然后我就能完全将其与我们的历史销售额进行对比。我可以用预测线和历史线对比看看这可能会对净预期销售额产生什么影响。和维贾伊的例子相比,这是一个很常见的例子,它只是把历史趋势线和预测线结合起来,但它是双向的这一事实给了终端用户-我不需要理解模型的黑盒子是如何工作的。我只需要了解我可以使用的参数,然后得到结果。
这里的概念框架是一个黑盒子。黑匣子的任何输入都可能来自于用户对数据的处理,因此它也成为了一个场景建模。
太好了。另一个问题是,“如何在RapidMiner中定期加载动态数据来处理?”
在RapidMiner中有一种调度的方法。我不是这里的技术专家,所以我可以请你——我们会让我们的预售团队给你答复的。但本质上,Studio产品和服务器都有能力进行定期加载或调度过程。
下一个问题是,“您是否推荐PML用于模型交换和集成?”所以我要给你们一个外行人的解释,维贾伊和我还没有讨论过这个问题。如果我要让他为难,我道歉。因此,虽然RapidMiner可以使用PML,也可以导出PML,但我所知道的是,PML标准开始失去模型的各个方面,在我们的例子中,是在RapidMiner工作流中。所以这不是我是否推荐它的问题,这是一个函数,你想要导出它到哪里,什么时候,你想要用它做什么。
是的。是的。您现在可以在PML中导出模型,但是它也限制了功能。所以如果有一个原型,你正在创建一个非常简单的建模,一个非常简单的分类模型,举例来说,你正在应用它,是的,它可以在PML中完成。所以你可以导出它。它只是显示为一个代码列表,您可以在任何支持PML的地方使用它。一些BI供应商支持它,一些数据库也支持它。但就像Bill说的,它在一定程度上限制了功能。如果您的模型非常健壮,它有许多参数和元参数来动态解析值,那么这就限制了是否可以将其导出到PML。通过简单的建模,当然可以。 For complex modeling, for probably most of the production models that you are using, the answer might be no.
太好了。谢谢。我们还有一个问题。我把这封信寄给比尔。“如果RapidMiner也能提供数据可视化功能,这有意义吗?”它可以是一个从头到尾的集成产品吗?你对RapidMiner有什么计划吗?”
这是个好问题。有趣的是,市场上的数据可视化工具如Tableau和Qlik是最好的。所以我们不想做无谓的重复工作。说到这里,RapidMiner实际上是使用服务器组件提供的,大量的可视化,你可以用来表示评分结果和模型的参数等等。这是产品自带的。但是,尽管它的范围很广,但它无法在特性上与数据可视化产品的质量和功能深度相匹配。乐鱼全站app下载因此,我们认为更好的时间投资是制作和提供API,这样我们就可以与那些产品集成,因为坦白地说,大多数公司已经进行了这样的投资,并选择了数据可视化工具。乐鱼全站app下载
太好了。谢谢。同样,对于那些打电话询问幻灯片和录音的人,我们会在演示结束后发送幻灯片和录音。所以在你的邮件里找找吧。我还有一个问题
因为电脑的关系,我要念出来。
去做吧。
“我是一个RapidMiner初学者。你是否知道任何在线的RapidMiner强化培训,或者学习RapidMiner的最佳方法是什么?”如果你去我们的网站,有一个部分叫“入门”。现在,这提供了一个非常详尽的示例库、用例、示例模型等等。在产品内部,有许多教程带您了解一些流失的基本示例,一些非常常见的用例示例,以开始学习。我认为你要问自己的终极问题是,“你是否精通数据科学,独立于学习工具之外?”乐鱼体育官方app因为它们确实是两种不同的教育要求。因此,我们RapidMiner还提供了基础1和基础2,以使您熟练使用该工具。话虽如此,我们并没有真正提供数据科学的基础知识。乐鱼体育官方app当你上这些课的时候,你会学到一些。 But now I want to let Vijay selfishly promote the book that he has written because he is much more an appropriate educator on data science.
是的。我们正在处理数据科学的引入,这是RapidMiner的一个用例。乐鱼体育官方app作为一个数据科学家,你想要了解实践-抱歉,是算法的冲突,只是基础知识。它不涉及太多的数学,但良好的数学基础是有帮助的。我认为,任何涉及数据或分析的人,都应该了解数据科学的入门部分,这样你就可以更好地欣赏这个工具。乐鱼体育官方app然后我打算写一些介绍数据科学和概念的文献,同时练习RapidMiner,因为无论何时你练习它,概念都能更好地记住。乐鱼体育官方app这就是重点所在。网上也有一些不错的课程,可以教授数据科学的入门知识。乐鱼体育官方app
另一个问题,集成。“RapidMiner与Tableau、Qlik整合得很好。现在也可以把一个RapidMiner放到SharePoint上吗?”答案是,我们不提供到SharePoint的本地连接器,但是你可以将结果导出为各种文件格式,这些文件格式可以作为原始数据使用,你实际上可以,通过RapidMiner的可视化,同样也不是一个广泛的产品,你可以创建各种输出的jpeg和png。但我认为你必须问自己,“你真正想要发送到SharePoint的是什么?”这是图片吗?是工作流的图片吗?”这和实际的分数结果不一样。但对你的问题的简短回答是,我们不提供任何形式的SharePoint本地连接器。
这也适用于-还有另一个关于DotShare的问题。如果您有一个可以可视化数据的编程接口,那么同样适用。还有另一个,如果你有RapidMiner服务器,它可以创建Web服务也可以输入一些数据。
太好了。所以我想——看起来时间差不多了,所以我想再次感谢你,维贾伊。谢谢比尔,参加我们的问答环节。对于那些在线的人,如果我们不能在网络研讨会上回答您的问题,我们将确保在接下来的几个工作日内通过电子邮件与您联系。所以我想感谢大家今天的到来,祝你们今天过得愉快。
谢谢你,的人。
谢谢你!