提取实体与玫瑰在RapidMiner工作室
检查我们的玫瑰文本工具箱扩展为RapidMiner和插入玫瑰文本分析直接到您的RapidMiner工作流程。更多信息请点击这里:https://www.rosette.com/
Get up and running with Rosette for RapidMiner Studio with this quick start guide,其中涵盖了安装和设置过程。我们还演示了如何开始提取和链接实体与玫瑰。
安装RapidMiner和Rosette
如果您还没有运行RapidMiner Studio,请下载应用程序RapidMiner的网站,下载玫瑰文本工具包扩展,打开RapidMiner Studio,导航到扩展菜单和选择市场.
将打开一个新窗口。搜索“玫瑰”并选择玫瑰文本工具包从结果列表中。单击安装1个包单击窗口底部的按钮,并按照点击通过说明完成安装。
一旦扩展完成安装,玫瑰操作员将在扩展资料夹运营商面板。
获得玫瑰API密钥
为了激活RapidMiner Studio的玫瑰文本工具包,你需要一个API密钥和一个玫瑰开发者帐户。转到developer.rosette.com并完成注册过程。
您可以创建一个帐户链接到您的电子邮件或您的GitHub帐户。不需要信用卡-我们的默认计划为您免费提供每天10,000个电话!如果你想增加通话额度,看看我们的付费计划。
一旦你完成了注册过程并验证了你的帐户,点击API密匙菜单栏左上角的选项卡,以显示您的密钥。
设置玫瑰API连接
回到RapidMiner Studio,输入你的Rosette API密钥开始使用任何Rosette的操作符。我们将在下一节中查看实体提取操作符,因此现在我们将使用它来设置Rosette API连接。
首先,定位提取实体的玫瑰文本工具包文件夹中运营商面板,并将其拖到过程面板。
中可以看到Extract Entities操作符的各种设置选项参数面板的右侧过程面板。第一个参数是连接.单击框右侧的玫瑰花图标。
的管理连接窗户会打开。单击添加连接按钮左下方,然后选择玫瑰连接从连接类型下拉列表。命名您的新连接,然后单击创建按钮。
从左侧的列表中选择您的新玫瑰API连接,并在API密匙盒子。使用测试按钮,以验证您的连接是否正常工作。如果遇到任何问题,请确认您已经正确复制了API密钥。当您确信一切运行顺利时,单击保存所有更改按钮返回到参数面板。
中选择您的新连接连接下拉列表。
提取实体
现在您已经安装了Rosette for RapidMiner扩展并设置了API密钥和连接,您几乎准备好开始分析了。最后一步:下载RapidMiner的文本处理扩展在RapidMiner市场中,一组有用的操作符允许您加载,过滤和分析来自各种不同来源的文本。安装后,前往RapidMiner Studio,我们将使用三个操作符来创建一个简单的实体提取工作流或过程:创建文档和文件到数据从文本处理,和提取实体从玫瑰。将这些操作符拖到过程面板并将它们连接在一起,保持上面列出的顺序。你可以用运营商搜索栏.
选择创建文档操作符。在参数面板中,选中添加标签框。下标签类型,选择文本,并输入' my_text '作为标签值。单击编辑文本按钮在面板的顶部,并复制下面的文本到弹出窗口。
“比尔·默里将出现在新的《捉鬼敢死队》电影中:彼得·文克曼博士被发现在波士顿拍摄客串……http://dlvr.it/BnsFfS.”
撞到申请更改按钮保存您的工作。
现在选择文件到数据操作符。在参数面板,在文本属性字段中输入' my_text '。
使用蓝色“执行流程”玩”按钮。结果显示了五个提取的实体。如您所见,Rosette正确地提取了文本中包含的名称和位置。
让我们把输入文本加长一点。将下面的句子添加到参数文本中,然后重新运行该过程。
“另一位原版捉鬼敢死队的丹·阿克罗伊德也确认会在电影中客串。”
从结果中我们可以看到,Rosette按照预期提取了Dan Akroyd的名字。然而,眼尖的读者可能已经注意到“Akroyd”是拼错的。(应该是“Aykroyd”)这种情况并不罕见。从个人博客到网上的《纽约时报》,名字拼写错误屡见不鲜。如果您试图在大量文档集合中跟踪特定实体,则需要确保标识了该实体名称的所有可能拼写。Rosette自动提取和链接具有拼写变化和其他文本异常的实体,将它们统一到单个条目中。
为了演示这个功能,让我们启用链接实体在提取实体参数面板。
然后,我们将在参数文本中添加第三行,其中包括Dan Aykroyd名字的正确拼写,如下所示:
“实际上,正确的拼写是Aykroyd。”
当我们再次运行该流程时,结果中将出现一个新的QID列。注意,“Dan Akroyd”和“Aykroyd”具有相同的QID值- Rosette已经正确地将它们识别为相同的实体。
QID值是从Wikidata中提取的,所以如果一个实体有Wikidata条目,Rosette应该能够链接并解析它。
qid对于机器阅读非常有用,但对于人类来说,它们可能很难跟踪。让我们打开包含实体名称参数,这将允许我们看到实体名称以及它们的qid。
你自己试试
现在您已经使用RapidMiner Studio启动并运行了Rosette Text Toolkit,您已经准备好处理大量文本分析任务了。将上述结果合并到您已有的数据处理中,并查看我们的其他操作符,包括分类,情绪分析,形态分析,标记,句子标记,名字翻译,名字匹配.
既然你这么做了,随时通知我们!我们喜欢听到我们的用户在做什么,并且很高兴能在我们的博客和RapidMiner社区分享你的RapidMiner玫瑰故事。
评论
你好,我找不到创建文档,从文件到数据在我的操作中,我使用7.3版本。
帮助! !
你好,
您是否安装了文本挖掘扩展?去扩展>市场,搜索文本挖掘。然后安装它。
你好
有人能指导我做这个任务吗?
问题:k=3和k=5在k折交叉验证和使用ID3决策树集数据的精度
谢谢
嗨pedramahmadi,
你在别的地方提问可能会更幸运。它与上面描述的实体提取过程无关。
祝你好运。
来自Rosette的汉娜
你好,我正试图将Excel文件导入Rapidminer。但是,此Excel文件具有混合数据格式。例如,给定列可能包含一些仅为数值的单元格,而其他一些单元格则是纯文本。当我导入它显示一个错误“无法从文本文件中获得数值”我该如何解决这个问题?
嗨amenaakhterchy
您在其他地方回答这个问题可能会有更好的运气,因为它不属于实体提取指南。我只是做了一个快速搜索,看起来有一些有用的回应关于Excel文件中混合数据格式的非常类似的问题.
祝你好运。
来自Rosette的汉娜
你好,我第一次尝试Rapidminer和Rosette,并遵循本教程,我已经在第一行卡住了。
我得到:无法创建元属性
我完全按照相同的步骤正确注册了API密钥,你能帮助我吗?
嗨fabio_pertel
我相信你遇到的问题可能是由我们最近发布的Rosette API 1.7引起的,我们的RapidMiner扩展依赖于这个API 1.7。我们今天下午刚刚发布了一个修复,你能再试一次,看看是否能得到结果吗?如果没有,请发邮件给我们(电子邮件保护).
非常感谢,
汉娜
你好,
我刚刚开始使用RM进行文本分析。处理结构化数据一切都很顺利,但我在分析文本文档方面遇到了困难。您能否简要介绍一下如何从PDF或Word文档中提取实体?
我已经搜索了这些论坛和谷歌和唯一的解决方案,似乎是工作的文件转换成一个文本文件。这并不理想。任何帮助都会非常感激。
嗨泰,
谢谢你的问题!Rosette可以处理原始文本文件,但RapidMiner可以很容易地准备处理文本,如果它不是。txt格式。
我们建议使用RapidMiner的“文本处理”扩展。只需使用“读取文档”操作符(将PDF作为输入),然后使用“文档到数据”操作符。
愿一切都好!
汉娜