提取实体与玫瑰在RapidMiner工作室

汉娜 · 2016年11月

rosette2 - 01. - png 检查我们的玫瑰文本工具箱扩展为RapidMiner和插入玫瑰文本分析直接到您的RapidMiner工作流程。更多信息请点击这里:https://www.rosette.com/

Get up and running with Rosette for RapidMiner Studio with this quick start guide，其中涵盖了安装和设置过程。我们还演示了如何开始提取和链接实体与玫瑰。

安装RapidMiner和Rosette

如果您还没有运行RapidMiner Studio，请下载应用程序RapidMiner的网站，下载玫瑰文本工具包扩展，打开RapidMiner Studio，导航到扩展菜单和选择市场．

rm-1

将打开一个新窗口。搜索“玫瑰”并选择玫瑰文本工具包从结果列表中。单击安装1个包单击窗口底部的按钮，并按照点击通过说明完成安装。

rm-2

一旦扩展完成安装，玫瑰操作员将在扩展资料夹运营商面板。

rapidminer-extension

获得玫瑰API密钥

为了激活RapidMiner Studio的玫瑰文本工具包，你需要一个API密钥和一个玫瑰开发者帐户。转到developer.rosette.com并完成注册过程。

rm-4

您可以创建一个帐户链接到您的电子邮件或您的GitHub帐户。不需要信用卡-我们的默认计划为您免费提供每天10,000个电话!如果你想增加通话额度，看看我们的付费计划。

rm-5

一旦你完成了注册过程并验证了你的帐户，点击API密匙菜单栏左上角的选项卡，以显示您的密钥。

rm-6

设置玫瑰API连接

回到RapidMiner Studio，输入你的Rosette API密钥开始使用任何Rosette的操作符。我们将在下一节中查看实体提取操作符，因此现在我们将使用它来设置Rosette API连接。

首先,定位提取实体的玫瑰文本工具包文件夹中运营商面板，并将其拖到过程面板。

rm-7

中可以看到Extract Entities操作符的各种设置选项参数面板的右侧过程面板。第一个参数是连接．单击框右侧的玫瑰花图标。

rm-8

的管理连接窗户会打开。单击添加连接按钮左下方，然后选择玫瑰连接从连接类型下拉列表。命名您的新连接，然后单击创建按钮。

rm-9

从左侧的列表中选择您的新玫瑰API连接，并在API密匙盒子。使用测试按钮，以验证您的连接是否正常工作。如果遇到任何问题，请确认您已经正确复制了API密钥。当您确信一切运行顺利时，单击保存所有更改按钮返回到参数面板。

rm-10

中选择您的新连接连接下拉列表。

rm-11

提取实体

现在您已经安装了Rosette for RapidMiner扩展并设置了API密钥和连接，您几乎准备好开始分析了。最后一步:下载RapidMiner的文本处理扩展在RapidMiner市场中，一组有用的操作符允许您加载，过滤和分析来自各种不同来源的文本。安装后，前往RapidMiner Studio，我们将使用三个操作符来创建一个简单的实体提取工作流或过程:创建文档和文件到数据从文本处理，和提取实体从玫瑰。将这些操作符拖到过程面板并将它们连接在一起，保持上面列出的顺序。你可以用运营商搜索栏．

选择创建文档操作符。在参数面板中，选中添加标签框。下标签类型，选择文本，并输入' my_text '作为标签值。单击编辑文本按钮在面板的顶部，并复制下面的文本到弹出窗口。

“比尔·默里将出现在新的《捉鬼敢死队》电影中:彼得·文克曼博士被发现在波士顿拍摄客串……http://dlvr.it/BnsFfS．”

撞到申请更改按钮保存您的工作。

rm-12

现在选择文件到数据操作符。在参数面板，在文本属性字段中输入' my_text '。

rm-13

使用蓝色“执行流程”玩”按钮。结果显示了五个提取的实体。如您所见，Rosette正确地提取了文本中包含的名称和位置。

rm-14

让我们把输入文本加长一点。将下面的句子添加到参数文本中，然后重新运行该过程。

“另一位原版捉鬼敢死队的丹·阿克罗伊德也确认会在电影中客串。”

rm-15

从结果中我们可以看到，Rosette按照预期提取了Dan Akroyd的名字。然而，眼尖的读者可能已经注意到“Akroyd”是拼错的。(应该是“Aykroyd”)这种情况并不罕见。从个人博客到网上的《纽约时报》，名字拼写错误屡见不鲜。如果您试图在大量文档集合中跟踪特定实体，则需要确保标识了该实体名称的所有可能拼写。Rosette自动提取和链接具有拼写变化和其他文本异常的实体，将它们统一到单个条目中。

rm-16

为了演示这个功能，让我们启用链接实体在提取实体参数面板。

rm-17

然后，我们将在参数文本中添加第三行，其中包括Dan Aykroyd名字的正确拼写，如下所示:

“实际上，正确的拼写是Aykroyd。”

rm-18

当我们再次运行该流程时，结果中将出现一个新的QID列。注意，“Dan Akroyd”和“Aykroyd”具有相同的QID值- Rosette已经正确地将它们识别为相同的实体。

rm-19

QID值是从Wikidata中提取的，所以如果一个实体有Wikidata条目，Rosette应该能够链接并解析它。

rm-20

qid对于机器阅读非常有用，但对于人类来说，它们可能很难跟踪。让我们打开包含实体名称参数，这将允许我们看到实体名称以及它们的qid。

rm-21

rm-22

你自己试试

现在您已经使用RapidMiner Studio启动并运行了Rosette Text Toolkit，您已经准备好处理大量文本分析任务了。将上述结果合并到您已有的数据处理中，并查看我们的其他操作符，包括分类，情绪分析，形态分析，标记，句子标记，名字翻译,名字匹配．

既然你这么做了，随时通知我们！我们喜欢听到我们的用户在做什么，并且很高兴能在我们的博客和RapidMiner社区分享你的RapidMiner玫瑰故事。

jmphillips · 2016年11月

你好，我找不到创建文档，从文件到数据在我的操作中，我使用7.3版本。

帮助! !

Thomas_Ott · 2016年11月

你好,

您是否安装了文本挖掘扩展?去扩展>市场，搜索文本挖掘。然后安装它。

pedramahmadi · 2016年12月

你好

有人能指导我做这个任务吗?

问题:k=3和k=5在k折交叉验证和使用ID3决策树集数据的精度

谢谢

汉娜 · 2016年12月

嗨pedramahmadi,

你在别的地方提问可能会更幸运。它与上面描述的实体提取过程无关。

祝你好运。

来自Rosette的汉娜

amenaakhterchy · 2017年1月

你好，我正试图将Excel文件导入Rapidminer。但是，此Excel文件具有混合数据格式。例如，给定列可能包含一些仅为数值的单元格，而其他一些单元格则是纯文本。当我导入它显示一个错误“无法从文本文件中获得数值”我该如何解决这个问题?

汉娜 · 2017年1月

嗨amenaakhterchy

您在其他地方回答这个问题可能会有更好的运气，因为它不属于实体提取指南。我只是做了一个快速搜索，看起来有一些有用的回应关于Excel文件中混合数据格式的非常类似的问题．

祝你好运。

来自Rosette的汉娜

fabio_pertel · 2017年6月

你好，我第一次尝试Rapidminer和Rosette，并遵循本教程，我已经在第一行卡住了。

我得到:无法创建元属性

我完全按照相同的步骤正确注册了API密钥，你能帮助我吗?

汉娜 · 2017年6月

嗨fabio_pertel

我相信你遇到的问题可能是由我们最近发布的Rosette API 1.7引起的，我们的RapidMiner扩展依赖于这个API 1.7。我们今天下午刚刚发布了一个修复，你能再试一次，看看是否能得到结果吗?如果没有，请发邮件给我们(电子邮件保护)．

非常感谢,

汉娜

泰 · 2017年10月

你好,

我刚刚开始使用RM进行文本分析。处理结构化数据一切都很顺利，但我在分析文本文档方面遇到了困难。您能否简要介绍一下如何从PDF或Word文档中提取实体?

我已经搜索了这些论坛和谷歌和唯一的解决方案，似乎是工作的文件转换成一个文本文件。这并不理想。任何帮助都会非常感激。

汉娜 · 2017年10月

嗨泰,

谢谢你的问题!Rosette可以处理原始文本文件，但RapidMiner可以很容易地准备处理文本，如果它不是。txt格式。

我们建议使用RapidMiner的“文本处理”扩展。只需使用“读取文档”操作符(将PDF作为输入)，然后使用“文档到数据”操作符。

愿一切都好！

汉娜

哈尼 · 2021年1月

你好，我在Rapidminer的市场上找不到我的玫瑰文本工具包。我怎样才能找到它?我的Rapidminer 9.8.0

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。