类别

版本

飞机救援消防的读(高级文件连接器)

剧情简介

此操作符用于读取ARFF文件。

描述

该操作员可以读取机器学习库Weka中已知的ARFF(属性-关系文件格式)文件。leyu体育是真的吗ARFF文件是一个ASCII文本文件,它描述了共享一组属性的实例列表。ARFF文件由怀卡托大学计算机科学系的机器学习项目开发,用于与Weleyu体育是真的吗ka机器学习软件一起使用。为了了解ARFF文件格式的基础和结构,请研究所附的示例过程。请注意,在写入ARFF文件时,不会存储属性的角色。类似地,当读取ARFF文件时,所有属性的角色都设置为常规。

输入

  • 文件

    ARFF文件被期望作为一个文件对象,它可以用其他具有文件输出端口的操作符(如Read file操作符)创建。

输出

  • 输出(数据表)

    该端口以表格形式交付ARFF文件以及元数据。此输出类似于Retrieve操作符的输出。

参数

  • data_file这里指定了ARFF文件的路径。选项可以选择选择一个文件按钮。范围:文件名
  • 编码这是一个专家参数。提供了一个很长的编码列表;用户可以选择其中任何一个。选择范围:
  • read_not_matching_values_as_missings这是一个专家参数。如果该参数设置为true,则与期望值类型不匹配的值将被认为是缺失值,并被'?'替换。例如,如果'abc'被写在一个整数列中,它将被视为一个缺失值。ARFF文件中的问号(?)也会被读取为缺失值。范围:布尔
  • decimal_character此字符用作十进制字符。范围:字符
  • grouped_digits这个参数决定是否要解析分组的数字。如果该参数设置为true,则分组的性格参数。范围:布尔
  • grouping_character仅当数字分组参数设置为true。该字符用作分组字符。如果在数字之间找到该字符,则合并数字并忽略该字符。例如,如果ARFF文件中出现了“22-14”,而“-”被设置为分组的性格,则存储“2214”。范围:字符
  • infinity_string这个参数可以设置为解析一个特定的无穷大表示(例如。“∞”)。如果没有设置,将使用局部特定的无穷大表示。范围:字符串

教程的过程

飞机救援救援的基础知识

'Iris'数据集是使用Retrieve操作符加载的。写入ARFF操作符应用于它,将'Iris'数据集写入ARFF文件。示例设置文件参数设置为“D:\Iris”。因此,在计算机的“D”驱动器中创建一个名为“虹膜”的ARFF文件。打开此文件以查看ARFF文件的结构。

ARFF文件有两个不同的部分。第一部分是头信息,后面是数据信息。ARFF文件的Header包含关系的名称和属性列表。关系的名称在@RELATION语句之后指定。该关系被RapidMiner忽略。每个属性定义都以@ATTRIBUTE语句开始,后面跟着属性名称及其类型。此示例流程的结果ARFF文件从Header开始。该关系的名称是'RapidMinerData'。在Relation的名称之后,定义了六个属性。

属性声明采用@ATTRIBUTE语句有序序列的形式。数据集中的每个属性都有自己的@ATTRIBUTE语句,该语句唯一地定义了该属性的名称及其数据类型。属性的声明顺序表示文件数据部分中的列位置。例如,在这个示例进程的最终ARFF文件中,'label'属性声明在所有其他属性声明的末尾。因此,'label'属性的值位于Data部分的最后一列。

ARFF中可能的属性类型有:数值型整数real {nominalValue1,nominalValue2,…没有明确的标称值的标称属性(但是建议尽可能多地使用上面的标称定义)date [date-format] (RapidMiner目前不支持)

您可以在此示例流程的最终ARFF文件中看到属性'a1', 'a2', 'a3'和'a4'是真实类型。属性'id'和'label'是名义类型。不同的标称值也由这些标称属性指定。

文件的ARFF Data部分包含数据声明行@DATA,后面跟着实际的示例数据行。每个示例都用一行表示,回车符表示示例的结束。每个示例的属性值由逗号分隔。它们必须按照它们在Header部分中声明的顺序出现(即与第n个@ATTRIBUTE声明对应的数据总是示例行的第n个字段)。缺失的值由一个问号(?)表示。

百分号(%)引入注释,在读取过程中将被忽略。属性名或包含空格的示例值必须用单引号(')引用。请注意,在RapidMiner中,稀疏ARFF格式目前只支持数值属性。如果您还需要用于标称属性的稀疏数据文件,请使用RapidMiner提供的其他稀疏数据文件选项之一。

使用Read ARFF操作符读取ARFF文件

在第一个示例进程中使用写ARFF操作符写入的ARFF文件在这个示例进程中使用读ARFF操作符检索。数据文件参数设置为“%{tempdir}/Iris”。所有其他参数均使用默认值。运行该流程。您将看到结果与RapidMiner存储库的原始Iris数据集非常相似。请注意,在Read ARFF操作符的结果中,所有属性的角色都是规则的。甚至'id'和'label'属性的角色也被设置为常规。这是因为ARFF文件不存储关于属性角色的信息。