使用Azure数据湖存储连接器
本指南针对Gen2 Azure数据湖存储架构。有关较旧的存储体系结构,请参阅Gen1文档
Azure数据湖存储连接器允许您直接从RapidMiner Studio访问Azure数据湖存储Gen2帐户。这两个读而且写支持操作。你也可以从一组文件中读取在Azure数据湖存储目录中,使用环Azure数据湖存储Gen2操作符。本文档将指导你如何:
连接到Azure数据湖存储Gen2帐户
在使用Azure数据湖存储连接器之前,您必须配置Azure环境以支持远程连接,并在RapidMiner中设置新的Azure数据湖存储Gen2连接。
为此,您需要执行以下主要步骤(请参阅下面的详细信息)。
- 在Azure门户上创建一个web应用程序注册。
- 获取远程连接信息。
- 在RapidMiner中设置和测试新的Azure数据湖存储Gen2连接。
步骤1:在Azure门户上创建一个web应用程序注册
默认和推荐的向Azure授权的方式是使用web应用程序注册(Active Directory Service Principal)。您也可以使用共享密钥。在后一种情况下,您可以跳过这一步。
创建并配置Azure AD web应用程序,以允许使用Azure Active Directory使用Azure Data Lake Storage Gen2进行服务对服务身份验证。经过步骤1来步骤2的服务到服务认证指南.第一步注册一个web应用程序,该应用程序将为RapidMiner提供对Azure数据湖存储的访问。的值可以使用任意值的名字而且登录网址字段。第二步描述如何获取租户ID、已注册应用程序的应用程序ID以及需要在RapidMiner中提供的密钥,以便它能够使用该应用程序。您还必须将所需的资源特权授予新注册的应用程序。您可以使用Azure Web Portal、Azure CLI或Azure Storage Explorer桌面应用程序等工具来控制对资源的访问。
在Azure Tenant中执行这些步骤之后,您应该拥有一个web应用程序注册,配置为访问目标Azure数据湖存储Gen2资源的部分或所有文件夹。注意,要使RapidMiner操作符的文件浏览器(见下文)工作,您需要给出读而且执行容器上的访问,以及您希望允许导航的所有目录上的访问。除此之外,你需要写允许从RapidMiner写入云存储。如果可以在没有文件浏览器的情况下工作,则可以将权限限制到操作人员直接使用的目标文件夹/文件。
步骤2:获取远程连接信息
可以通过“”访问资源活动目录服务主体(推荐)或a共享密钥.在RapidMiner中创建连接之前,需要获取以下信息。
为活动目录服务主体:
- 您的帐户名称。
- 您创建的Web应用程序的应用程序ID和应用程序键。
- 标识公司帐户的租户ID。
为共享密钥:
- 您的帐户名称。
- 您的账户钥匙。
步骤3:在RapidMiner中设置和测试新的Azure数据湖存储Gen2连接
有了所有信息后,在RapidMiner中建立连接就很简单了。
在RapidMiner Studio中,右键单击要存储Azure数据湖存储Gen2连接的存储库并选择创建连接.
你也可以点击连接>创建连接并选择存储库在下面的对话框中。
为新连接指定一个名称,并设置连接类型来Azure数据湖存储Gen2:
点击创建然后切换到设置页中的编辑连接对话框。
填写Azure数据湖存储Gen2帐户的连接详细信息。要么选择活动目录服务主体(推荐)或共享密钥.为第一个提供帐户名称,客户机ID(web应用程序ID),客户的关键(访问web应用程序的密码)和承租者ID,而对于后者帐户名称而且账户关键.
虽然不是必需的,但我们建议通过单击测试连接按钮。如果测试失败,请检查详细信息是否正确。
点击保存保存连接并关闭编辑连接对话框。现在可以开始使用Azure数据湖存储操作符了。
从Azure数据湖存储读取
的阅读Azure数据湖存储Gen2操作员从您的Azure数据湖存储Gen2帐户读取数据。该操作符可用于加载任意格式的文件,因为它只下载而不处理文件。要处理这些文件,您需要使用额外的操作符,例如读CSV,读取Excel,或读取XML.
让我们从简单的阅读开始csvAzure数据湖存储中的文件。
拖一个阅读Azure数据湖存储Gen2运算符流程面板.选择您的Azure数据湖存储Gen2连接连接条目参数从存储库的Connections文件夹中删除旁边的按钮:
或者,您可以将Azure数据湖存储Gen2连接从存储库拖到流程面板并将生成的运算符与阅读Azure数据湖存储Gen2操作符。
点击文件选择器按钮以查看Azure数据湖存储Gen2帐户中的文件。选择需要加载的文件,单击开放.请注意,您需要读而且执行访问根目录,如果要使用文件浏览器就要从根文件夹开始。如果您没有该权限,则可以在参数字段中键入路径。如果您可以访问该路径(文件或目录)的父文件夹和执行访问到容器级别,就可以打开文件浏览器了。或者您总是可以使用手动键入的路径并使用操作符(在这种情况下,权限只在运行时检查)。
如上所述,阅读Azure数据湖存储Gen2操作符不处理指定文件的内容。在我们的例子中,我们选择了acsv文件(一个用逗号分隔的值文件)。方法处理此文件类型读CSV操作符。
添加一个读CSV之间的运算符阅读Azure数据湖存储Gen2运算符和结果端口。的参数读CSV操作符-例如列分隔符-,这取决于您的CSV文件的格式:
运行这个过程!在结果透视图,您应该看到一个包含所选CSV文件的行和列的表:
现在,您可以使用进一步的操作符来处理该文档,例如,确定某些事件的共性。要将结果写回Azure数据湖存储,可以使用写Azure数据湖存储Gen2操作符。的连接类型使用相同的连接类型阅读Azure数据湖存储Gen2操作符,并具有类似的接口。你也可以从一组文件中读取在Azure数据湖存储目录中,使用环Azure数据湖存储Gen2操作符。为此,您需要指定连接条目和文件夹以及带有嵌套操作符的处理循环的步骤。如需更多详情,请参阅环Azure数据湖存储Gen2操作符。