不能使用正则表达式根据内容筛选标记(句子)

KateSh · 2021年9月

大家好!
我是文本挖掘的新手。一个非常简单的任务对我来说是一个无法解决的问题

我有50份英文pdf文档。从那里，我需要提取包含至少一个情态动词的句子(用于进一步分析)。
在“从文件中处理文档”操作符中，我创建了“tokenize”(语言句子)和“通过内容过滤标记”操作符。在“filter tokens by content”中，我写了动词除以没有空格的垂直线，但它不起作用，结果是空的。如果我只写一个动词，它就行了，但如果我用一条垂直线写很多动词，它就不行了。我试遍了这个操作器的所有条件，没有一个能使它工作。
我会非常感谢你的帮助!
以下是我的流程:

<？xml version="1.0" encoding="UTF-8" standalone="no"?>

<过程version = " 5.3.015 " >

> <上下文

<输入/ >

<输出/ >

<宏/ >

> < /上下文

<过程扩展= " true " >

<列出关键= " text_directories " >

<参数键=“pdf”值= " D: \Все\УЧЁБА\ВКР\Материал\Оригинальные" / >

< / >列表

<过程扩展= " true " >

< /操作符>

.

< /操作符>

.

> < /过程

< /操作符>

.

> < /过程

< /操作符>

> < /过程

lionelderkrikor · 2021年9月

嗨@KateSh，

你是否尝试了参数“contains”而不是“matches”?

问候,

莱昂内尔

lionelderkrikor · 2021年9月

你好,再一次@KateSh，

否则，你有没有试过使用示例集过滤令牌操作员:查看这个过程的教程

问候,

莱昂内尔

KateSh · 2021年9月

太感谢你了，这很有帮助!
(对不起，昨天太忙了，没有早点回复)

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

不能使用正则表达式根据内容筛选标记(句子)

最好的答案

答案