不能使用正则表达式根据内容筛选标记(句子)
大家好!
我是文本挖掘的新手。一个非常简单的任务对我来说是一个无法解决的问题
我有50份英文pdf文档。从那里,我需要提取包含至少一个情态动词的句子(用于进一步分析)。
在“从文件中处理文档”操作符中,我创建了“tokenize”(语言句子)和“通过内容过滤标记”操作符。在“filter tokens by content”中,我写了动词除以没有空格的垂直线,但它不起作用,结果是空的。如果我只写一个动词,它就行了,但如果我用一条垂直线写很多动词,它就不行了。我试遍了这个操作器的所有条件,没有一个能使它工作。
我会非常感谢你的帮助!
以下是我的流程:
.
.
.
.
.
.
我是文本挖掘的新手。一个非常简单的任务对我来说是一个无法解决的问题
我有50份英文pdf文档。从那里,我需要提取包含至少一个情态动词的句子(用于进一步分析)。
在“从文件中处理文档”操作符中,我创建了“tokenize”(语言句子)和“通过内容过滤标记”操作符。在“filter tokens by content”中,我写了动词除以没有空格的垂直线,但它不起作用,结果是空的。如果我只写一个动词,它就行了,但如果我用一条垂直线写很多动词,它就不行了。我试遍了这个操作器的所有条件,没有一个能使它工作。
我会非常感谢你的帮助!
以下是我的流程:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<过程version = " 5.3.015 " >
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
<列出关键= " text_directories " >
<参数键=“pdf”值= " D: \Все\УЧЁБА\ВКР\Материал\Оригинальные" / >
< / >列表
<过程扩展= " true " >
< /操作符>
< /操作符>
> < /过程
< /操作符>
> < /过程
< /操作符>
> < /过程
标记:
0
最好的答案
-
lionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽0
-
lionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽0
答案
(对不起,昨天太忙了,没有早点回复)