提取实体与玫瑰在RapidMiner工作室

汉娜汉娜 成员职位:5贡献我
2020年1月编辑 知识库

rosette2 - 01. - png检查我们的玫瑰文本工具箱扩展为RapidMiner和插入玫瑰文本分析直接到您的RapidMiner工作流程。更多信息请点击这里:https://www.rosette.com/

Get up and running with Rosette for RapidMiner Studio with this quick start guide,其中涵盖了安装和设置过程。我们还演示了如何开始提取和链接实体与玫瑰。

安装RapidMiner和Rosette

如果您还没有运行RapidMiner Studio,请下载应用程序RapidMiner的网站,下载玫瑰文本工具包扩展,打开RapidMiner Studio,导航到扩展菜单和选择市场

rm-1

将打开一个新窗口。搜索“玫瑰”并选择玫瑰文本工具包从结果列表中。单击安装1个包单击窗口底部的按钮,并按照点击通过说明完成安装。

rm-2

一旦扩展完成安装,玫瑰操作员将在扩展资料夹运营商面板。

rapidminer-extension

获得玫瑰API密钥

为了激活RapidMiner Studio的玫瑰文本工具包,你需要一个API密钥和一个玫瑰开发者帐户。转到developer.rosette.com并完成注册过程。

rm-4

您可以创建一个帐户链接到您的电子邮件或您的GitHub帐户。不需要信用卡-我们的默认计划为您免费提供每天10,000个电话!如果你想增加通话额度,看看我们的付费计划。

rm-5

一旦你完成了注册过程并验证了你的帐户,点击API密匙菜单栏左上角的选项卡,以显示您的密钥。

rm-6

设置玫瑰API连接

回到RapidMiner Studio,输入你的Rosette API密钥开始使用任何Rosette的操作符。我们将在下一节中查看实体提取操作符,因此现在我们将使用它来设置Rosette API连接。

首先,定位提取实体的玫瑰文本工具包文件夹中运营商面板,并将其拖到过程面板。

rm-7

中可以看到Extract Entities操作符的各种设置选项参数面板的右侧过程面板。第一个参数是连接.单击框右侧的玫瑰花图标。

rm-8

管理连接窗户会打开。单击添加连接按钮左下方,然后选择玫瑰连接连接类型下拉列表。命名您的新连接,然后单击创建按钮。

rm-9

从左侧的列表中选择您的新玫瑰API连接,并在API密匙盒子。使用测试按钮,以验证您的连接是否正常工作。如果遇到任何问题,请确认您已经正确复制了API密钥。当您确信一切运行顺利时,单击保存所有更改按钮返回到参数面板。

rm-10

中选择您的新连接连接下拉列表。

rm-11

提取实体

现在您已经安装了Rosette for RapidMiner扩展并设置了API密钥和连接,您几乎准备好开始分析了。最后一步:下载RapidMiner的文本处理扩展在RapidMiner市场中,一组有用的操作符允许您加载,过滤和分析来自各种不同来源的文本。安装后,前往RapidMiner Studio,我们将使用三个操作符来创建一个简单的实体提取工作流或过程:创建文档文件到数据从文本处理,和提取实体从玫瑰。将这些操作符拖到过程面板并将它们连接在一起,保持上面列出的顺序。你可以用运营商搜索栏

选择创建文档操作符。在参数面板中,选中添加标签框。下标签类型,选择文本,并输入' my_text '作为标签值。单击编辑文本按钮在面板的顶部,并复制下面的文本到弹出窗口。

“比尔·默里将出现在新的《捉鬼敢死队》电影中:彼得·文克曼博士被发现在波士顿拍摄客串……http://dlvr.it/BnsFfS.”

撞到申请更改按钮保存您的工作。

rm-12

现在选择文件到数据操作符。在参数面板,在文本属性字段中输入' my_text '。

rm-13

使用蓝色“执行流程””按钮。结果显示了五个提取的实体。如您所见,Rosette正确地提取了文本中包含的名称和位置。

rm-14

让我们把输入文本加长一点。将下面的句子添加到参数文本中,然后重新运行该过程。

“另一位原版捉鬼敢死队的丹·阿克罗伊德也确认会在电影中客串。”

rm-15

从结果中我们可以看到,Rosette按照预期提取了Dan Akroyd的名字。然而,眼尖的读者可能已经注意到“Akroyd”是拼错的。(应该是“Aykroyd”)这种情况并不罕见。从个人博客到网上的《纽约时报》,名字拼写错误屡见不鲜。如果您试图在大量文档集合中跟踪特定实体,则需要确保标识了该实体名称的所有可能拼写。Rosette自动提取和链接具有拼写变化和其他文本异常的实体,将它们统一到单个条目中。

rm-16

为了演示这个功能,让我们启用链接实体提取实体参数面板。

rm-17

然后,我们将在参数文本中添加第三行,其中包括Dan Aykroyd名字的正确拼写,如下所示:

“实际上,正确的拼写是Aykroyd。”

rm-18

当我们再次运行该流程时,结果中将出现一个新的QID列。注意,“Dan Akroyd”和“Aykroyd”具有相同的QID值- Rosette已经正确地将它们识别为相同的实体。

rm-19

QID值是从Wikidata中提取的,所以如果一个实体有Wikidata条目,Rosette应该能够链接并解析它。

rm-20

qid对于机器阅读非常有用,但对于人类来说,它们可能很难跟踪。让我们打开包含实体名称参数,这将允许我们看到实体名称以及它们的qid。

rm-21

rm-22

你自己试试

现在您已经使用RapidMiner Studio启动并运行了Rosette Text Toolkit,您已经准备好处理大量文本分析任务了。将上述结果合并到您已有的数据处理中,并查看我们的其他操作符,包括分类情绪分析形态分析标记句子标记名字翻译,名字匹配

既然你这么做了,随时通知我们!我们喜欢听到我们的用户在做什么,并且很高兴能在我们的博客和RapidMiner社区分享你的RapidMiner玫瑰故事。

yyhuang 珍妮

评论

  • jmphillipsjmphillips 成员职位:17因素二世

    你好,我找不到创建文档从文件到数据在我的操作中,我使用7.3版本。

    帮助! !

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    你好,

    您是否安装了文本挖掘扩展?去扩展>市场,搜索文本挖掘。然后安装它。

  • pedramahmadipedramahmadi 成员职位:1贡献我

    你好

    有人能指导我做这个任务吗?

    问题:k=3和k=5在k折交叉验证和使用ID3决策树集数据的精度

    谢谢

  • 汉娜汉娜 成员职位:5贡献我

    嗨pedramahmadi,

    你在别的地方提问可能会更幸运。它与上面描述的实体提取过程无关。

    祝你好运。

    来自Rosette的汉娜

  • amenaakhterchyamenaakhterchy 成员职位:7贡献我

    你好,我正试图将Excel文件导入Rapidminer。但是,此Excel文件具有混合数据格式。例如,给定列可能包含一些仅为数值的单元格,而其他一些单元格则是纯文本。当我导入它显示一个错误“无法从文本文件中获得数值”我该如何解决这个问题?

  • 汉娜汉娜 成员职位:5贡献我

    嗨amenaakhterchy

    您在其他地方回答这个问题可能会有更好的运气,因为它不属于实体提取指南。我只是做了一个快速搜索,看起来有一些有用的回应关于Excel文件中混合数据格式的非常类似的问题

    祝你好运。

    来自Rosette的汉娜

  • fabio_pertelfabio_pertel 成员职位:1贡献我

    你好,我第一次尝试Rapidminer和Rosette,并遵循本教程,我已经在第一行卡住了。

    我得到:无法创建元属性

    我完全按照相同的步骤正确注册了API密钥,你能帮助我吗?

  • 汉娜汉娜 成员职位:5贡献我

    嗨fabio_pertel

    我相信你遇到的问题可能是由我们最近发布的Rosette API 1.7引起的,我们的RapidMiner扩展依赖于这个API 1.7。我们今天下午刚刚发布了一个修复,你能再试一次,看看是否能得到结果吗?如果没有,请发邮件给我们(电子邮件保护)

    非常感谢,

    汉娜

  • 泰 成员职位:4贡献我

    你好,

    我刚刚开始使用RM进行文本分析。处理结构化数据一切都很顺利,但我在分析文本文档方面遇到了困难。您能否简要介绍一下如何从PDF或Word文档中提取实体?

    我已经搜索了这些论坛和谷歌和唯一的解决方案,似乎是工作的文件转换成一个文本文件。这并不理想。任何帮助都会非常感激。

  • 汉娜汉娜 成员职位:5贡献我

    嗨泰,

    谢谢你的问题!Rosette可以处理原始文本文件,但RapidMiner可以很容易地准备处理文本,如果它不是。txt格式。

    我们建议使用RapidMiner的“文本处理”扩展。只需使用“读取文档”操作符(将PDF作为输入),然后使用“文档到数据”操作符。

    愿一切都好!

    汉娜

  • 哈尼哈尼 成员职位:1新手
    2021年1月编辑
    你好,我在Rapidminer的市场上找不到我的玫瑰文本工具包。我怎样才能找到它?我的Rapidminer 9.8.0
登录注册置评。