类别

版本

使用Azure数据湖存储连接器

本指南针对Gen2 Azure数据湖存储架构。有关较旧的存储体系结构,请参阅Gen1文档

Azure数据湖存储连接器允许您直接从RapidMiner Studio访问Azure数据湖存储Gen2帐户。这两个而且支持操作。你也可以从一组文件中读取在Azure数据湖存储目录中,使用Azure数据湖图标环Azure数据湖存储Gen2操作符。本文档将指导你如何:

连接到Azure数据湖存储Gen2帐户

在使用Azure数据湖存储连接器之前,您必须配置Azure环境以支持远程连接,并在RapidMiner中设置新的Azure数据湖存储Gen2连接。

为此,您需要执行以下主要步骤(请参阅下面的详细信息)。

  • 在Azure门户上创建一个web应用程序注册。
  • 获取远程连接信息。
  • 在RapidMiner中设置和测试新的Azure数据湖存储Gen2连接。

步骤1:在Azure门户上创建一个web应用程序注册

默认和推荐的向Azure授权的方式是使用web应用程序注册(Active Directory Service Principal)。您也可以使用共享密钥。在后一种情况下,您可以跳过这一步。

创建并配置Azure AD web应用程序,以允许使用Azure Active Directory使用Azure Data Lake Storage Gen2进行服务对服务身份验证。经过步骤1步骤2服务到服务认证指南.第一步注册一个web应用程序,该应用程序将为RapidMiner提供对Azure数据湖存储的访问。的值可以使用任意值的名字而且登录网址字段。第二步描述如何获取租户ID、已注册应用程序的应用程序ID以及需要在RapidMiner中提供的密钥,以便它能够使用该应用程序。您还必须将所需的资源特权授予新注册的应用程序。您可以使用Azure Web Portal、Azure CLI或Azure Storage Explorer桌面应用程序等工具来控制对资源的访问。

在Azure Tenant中执行这些步骤之后,您应该拥有一个web应用程序注册,配置为访问目标Azure数据湖存储Gen2资源的部分或所有文件夹。注意,要使RapidMiner操作符的文件浏览器(见下文)工作,您需要给出而且执行容器上的访问,以及您希望允许导航的所有目录上的访问。除此之外,你需要允许从RapidMiner写入云存储。如果可以在没有文件浏览器的情况下工作,则可以将权限限制到操作人员直接使用的目标文件夹/文件。

步骤2:获取远程连接信息

可以通过“”访问资源活动目录服务主体(推荐)或a共享密钥.在RapidMiner中创建连接之前,需要获取以下信息。

活动目录服务主体

  1. 您的帐户名称。
  2. 您创建的Web应用程序的应用程序ID和应用程序键。
  3. 标识公司帐户的租户ID。

共享密钥

  1. 您的帐户名称。
  2. 您的账户钥匙。

步骤3:在RapidMiner中设置和测试新的Azure数据湖存储Gen2连接

有了所有信息后,在RapidMiner中建立连接就很简单了。

  1. 在RapidMiner Studio中,右键单击要存储Azure数据湖存储Gen2连接的存储库并选择新建连接图标创建连接

    你也可以点击连接>创建连接新建连接图标并选择存储库在下面的对话框中。

  2. 为新连接指定一个名称,并设置连接类型Azure数据湖图标Azure数据湖存储Gen2

  3. 点击创建图标创建然后切换到设置页中的编辑连接对话框。

  4. 填写Azure数据湖存储Gen2帐户的连接详细信息。要么选择活动目录服务主体(推荐)或共享密钥.为第一个提供帐户名称客户机ID(web应用程序ID),客户的关键(访问web应用程序的密码)和承租者ID,而对于后者帐户名称而且账户关键

  5. 虽然不是必需的,但我们建议通过单击连接测试图标测试连接按钮。如果测试失败,请检查详细信息是否正确。

  6. 点击Save图标保存保存连接并关闭编辑连接对话框。现在可以开始使用Azure数据湖存储操作符了。

从Azure数据湖存储读取

Azure数据湖图标阅读Azure数据湖存储Gen2操作员从您的Azure数据湖存储Gen2帐户读取数据。该操作符可用于加载任意格式的文件,因为它只下载而不处理文件。要处理这些文件,您需要使用额外的操作符,例如读CSV读取Excel,或读取XML

让我们从简单的阅读开始csvAzure数据湖存储中的文件。

  1. 拖一个Azure数据湖图标阅读Azure数据湖存储Gen2运算符流程面板.选择您的Azure数据湖存储Gen2连接连接条目参数从存储库的Connections文件夹中删除存储库选择器图标旁边的按钮:

    或者,您可以将Azure数据湖存储Gen2连接从存储库拖到流程面板并将生成的运算符与Azure数据湖图标阅读Azure数据湖存储Gen2操作符。

  2. 点击文件选择器按钮文件选择器图标以查看Azure数据湖存储Gen2帐户中的文件。选择需要加载的文件,单击文件选择器图标开放.请注意,您需要而且执行访问根目录,如果要使用文件浏览器就要从根文件夹开始。如果您没有该权限,则可以在参数字段中键入路径。如果您可以访问该路径(文件或目录)的父文件夹和执行访问到容器级别,就可以打开文件浏览器了。或者您总是可以使用手动键入的路径并使用操作符(在这种情况下,权限只在运行时检查)。

    如上所述,Azure数据湖图标阅读Azure数据湖存储Gen2操作符不处理指定文件的内容。在我们的例子中,我们选择了acsv文件(一个用逗号分隔的值文件)。方法处理此文件类型读CSV操作符。

  3. 添加一个读CSV之间的运算符Azure数据湖图标阅读Azure数据湖存储Gen2运算符和结果端口。的参数读CSV操作符-例如列分隔符-,这取决于您的CSV文件的格式:

  4. 运行运行过程这个过程!在结果透视图,您应该看到一个包含所选CSV文件的行和列的表:

现在,您可以使用进一步的操作符来处理该文档,例如,确定某些事件的共性。要将结果写回Azure数据湖存储,可以使用Azure数据湖图标写Azure数据湖存储Gen2操作符。的连接类型使用相同的连接类型Azure数据湖图标阅读Azure数据湖存储Gen2操作符,并具有类似的接口。你也可以从一组文件中读取在Azure数据湖存储目录中,使用Azure数据湖图标环Azure数据湖存储Gen2操作符。为此,您需要指定连接条目文件夹以及带有嵌套操作符的处理循环的步骤。如需更多详情,请参阅Azure数据湖图标环Azure数据湖存储Gen2操作符。