RapidMiner笔记本
RapidMiner笔记本是RapidMiner AI Hub的一部分。该产品使企业中所有学科的数据科学团队(包括乐鱼体育官方app编码人员和非编码人员)能够有效地在数据科学项目上进行协作。
在本页中,您将学习如何开始使用RapidMiner笔记本,并了解其更高级的功能。
开始使用RapidMiner笔记本电脑
RapidMiner笔记本作为RapidMiner AI Hub.这确保了与RapidMiner存储库和项目的紧密集成,以及跨平台的单点登录体验。
要访问RapidMiner笔记本,请导航到AI Hub着陆页面并单击RapidMiner笔记本.
要启动一个新笔记本,在上面显示的Launcher选项卡上,单击notebook部分中表示内核的磁贴。你开始的所有新笔记本都有一个链接到我们的教程笔记本,它解释了如何使用RapidMiner笔记本的关键功能。我们将在本页只介绍其中的一些特性,因为教程笔记本应该提供所需的所有帮助和上下文。
环境和内核
RapidMiner笔记本配备了一个预先配置的基于Python环境的Jupyter内核,包含了数据科学项目中最常用的Python库(例如:乐鱼体育官方app熊猫
,numpy
,scipy
,sklearn
等),以及图书馆rapidminer
它实现了与RapidMiner AI Hub的其他部分的集成。这个环境是集中管理的,也可以在RapidMiner AI Hub中执行(当Python代码嵌入到RapidMiner进程中时,参见本章)从RapidMiner调用Python了解更多详情)。
不能在笔记本实例中修改集中管理的环境。要扩展可用的内核列表,您有两个选项,这取决于您的需要:
- 如果您处于开发的早期阶段,并且只需要用于开发和实验目的的私有内核,那么您应该创建一个本地自定义内核。
- 如果您希望使用一个将由团队中的其他人使用的内核,或者它将进入生产环境,那么您应该创建一个集中管理的环境。
创建集中管理的环境
要创建集中管理的环境,您需要为平台管理工具在RapidMiner AI Hub。按照下面的步骤学习如何管理编码环境.
为了能够在RapidMiner笔记本中使用集中管理的环境作为Jupyter内核,它必须包含相关的内核库(即。ipykernel
对于基于Python的内核,irkernel
对于基于R的内核)。
一旦安装了编码环境,它将显示在RapidMiner笔记本中。不需要重新启动,只需要几分钟的时间让环境同步并被笔记本实例拾取。
创建本地自定义内核
如上所述,本地自定义内核仅对创建它们的用户可用。共享它们的唯一方法是导出它们的定义文件,并基于它们创建一个集中管理的环境(请参阅上面的说明)。
要创建本地自定义内核,在RapidMiner笔记本的启动器中打开一个新的终端。终端将包含有关如何克隆现有活动环境并从那里开始的说明,但是如果需要从头开始,也可以创建一个空白的新环境。
为了能够在RapidMiner笔记本中使用您的新环境作为内核,它必须包含相关的内核库(即。ipykernel
对于基于Python的内核,irkernel
对于基于R的内核)。
内核将被自动拾取,并成为笔记本中可供选择的内核。
协作
我们在RapidMiner AI Hub中提供的主要协作方法是通过项目.当使用RapidMiner笔记本时,您可以通过内置的Git集成访问所有项目。(RapidMiner项目基于Git作为版本控制和存储系统)
首先将项目克隆到Notebook工作区中。可以通过单击克隆当前目录下的Git存储库按钮,位于Git面板(您可以在左侧找到它)。在克隆一个回购对话框中,您可以从RapidMiner AI Hub中可用的项目列表中进行选择,或者提供存储库的克隆URI。
克隆操作完成后,项目的内容将作为Notebook工作区中的本地副本提供。当你准备了一个想要与他人共享并将其存储在项目历史记录中的更改时,你需要:
- 单击Git面板
- 选择任何无路径的文件您可能有(这些将是您添加的新文件),将鼠标悬停在它们上并单击加上图标来追踪他们
- 将鼠标悬停在所有更改的文件上,然后单击加上图标到舞台变化。您也可以单击阶段所有的变化按钮旁边的改变了下拉。
- 再次检查您希望与他人共享的所有更改是否已显示在上演了下拉
- 在Git面板底部的Summary文本框中添加一条描述您的更改的描述性消息,以及一个可选的Description。
- 点击提交
此时,您的更改作为提交存储在项目的本地副本中。要与团队中的其他人共享它,您需要通过单击推送已提交的更改按钮,位于Git面板的右上角。
要用其他人所做的最新更改刷新本地副本,请单击获取最新更改按钮,位于Git面板的右上角。
部署
一旦您对代码的工作感到满意,您将希望以某种方式部署它,例如计划执行或web服务。
目前我们只支持通过RapidMiner进程部署代码,然后使用RapidMiner AI Hub的部署功能来管理调度或web服务部署。
如果您还没有这样做,您将需要修改您的代码以遵循必要的约定在Execute Python操作符中执行。
体系结构
本节描述RapidMiner笔记本的底层架构。这有助于理解其内部工作原理和局限性。
在底层,在每个RapidMiner AI Hub部署中,都运行着一个JupyterHub实例。JupyterHub负责管理每个用户的笔记本容器的生命周期,以及身份验证和用户管理。默认情况下,用户容器配置为与JupyterLab一起运行,但也可以退回到经典的Jupyter notebook。
为了提供跨RapidMiner AI Hub的单点登录体验,RapidMiner笔记本的部署已经预先配置为使用已部署的KeyCloak实例作为其身份存储。这意味着当用户启动RapidMiner笔记本时,将永远不需要第二次身份验证。
用户笔记本容器仅在交互式会话中可用,这意味着它们在用户打开RapidMiner笔记本时启动,并在注销时停止。
有一个笔记本容器映像用作模板,用于启动每个用户自己的笔记本容器。该容器的主文件夹被持久化到一个卷中,这意味着所有代码、数据和私有内核都可以存储在那里,并且当用户在另一个会话中登录时仍然可用。这些卷对用户来说是私有的,不能在多个用户之间共享。
允许每个用户的笔记本容器在运行RapidMiner AI Hub的主机或集群上消耗预设数量的CPU内核和内存。看到图片参考关于如何更改用户的资源限制。该设置适用于RapidMiner AI Hub部署中的RapidMiner笔记本的所有用户,不能对每个用户进行更改。
我们在发布图像时安装并启用了一些Jupyter插件。目前,用户无法更改在其笔记本容器中安装的插件。如果您需要启用其他插件,请联系我们的支持团队。