单字文本分析
最好的答案
-
BalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:819独角兽嗨Buggia !
您可以尝试创建n = 2的“term n-grams”。这将给你所有的组合“I word”,“we word”等。然后,您将过滤带有您感兴趣的前缀(I, we,…)的术语,并提取空格后的单词。
下面是一个过程的例子:
<?xml version = " 1.0 " encoding = " utf - 8 " ?>
<宏/> < parameter key="logverbosity" value="init"/> <参数键="add label" value="false"/> <参数键="label_type" value="标称"/> <参数键="create_word_vector" value="true"/> <参数键="vector_creation" value="TF-IDF"/> <参数键="add_meta_information" value="true"/> <参数键="keep_text" value="true"/> <参数键="prune_method"value="none"/> <参数键="prune_below_percent" value="3.0"/> <参数键="prune_above_percent" value="30.0"/> <参数键="prune_above_rank" value="0.05"/> <参数键="prune_above_rank" value="0.95"/> <参数键="data_management" value="double_sparse_array"/> <参数键="data_management" value="auto"/> <参数键="mode" value="non letters"/> <参数键="characters" value="。:"/> <参数键="language" value="English"/> <参数键="max_token_length" value="3"/> <参数键="max_length" value="2"/>
问候,
Balazs1 -
Buggia 成员职位:4新手嗨BalazsBarany谢谢你的回答。由于我对编码语言不是很熟悉,您能给我解释一下流程中涉及到的“operatos”吗?
再次感谢您的帮助。0 -
BalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:819独角兽嗨Buggia !
第一个操作符只是创建一个带有示例文本的文档。它的输出到“Process Documents”。这是一个容器,用于在其中执行其他操作符。
Tokenize将单词按照“单词边界”分割为单个单元,就像空格一样。
Generate n-grams (Terms)创建每一个词对的组合。(有生成字格(字符)这将做同样的事情,但对单词中的字符。)
Filter Tokens by Content保留与正则表达式匹配的生成的“令牌”(n-grams)。在这里,我使用^ (I_ | we_)。+在符号的开头用单词来指代我或我们。这些就是你要找的词。如果您想扩展正则表达式,请将您的项添加到圆括号中,并用管道|作为分隔符。
就是这样。单词列表输出包含在文本中找到的组合及其频率。
BTW,每个操作员都有广泛的文档在帮助标签在Studio。
问候,
Balazs2
答案
在文本挖掘上下文中创建属性的默认方法是TF-IDF: Term Frequency, Inverse Document Frequency。
术语频率:一个单词(标记)在文档中的频率。
逆文档频率:单词(标记)在多少个文档中。
您可以在“Process Documents”的“vector creation”参数中选择另一种方法。例如,术语出现只是给你一个数字。
Word列表输出总是包含绝对数字,这就是我推荐使用它的原因。有一个操作符“WordList to data”用于将特殊表转换为普通表,例如用于进一步处理或将内容放入数据库。
问候,
Balazs