单字文本分析

BuggiaBuggia 成员职位:4新手
大家好!我在努力做文本分析。为了转换和标记所有文档,我已经完成了所有的过程。但现在我需要找出哪些单词与其他特定的单词“相关”。例如,我想在我所有的文件中找到“我”、“我们”和“你”后面的所有单词。
我尝试了许多不同的运算符,但我想不出一个解决方案。
谢谢你的帮助


最好的答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:819独角兽
    解决方案接受
    嗨Buggia !

    您可以尝试创建n = 2的“term n-grams”。这将给你所有的组合“I word”,“we word”等。然后,您将过滤带有您感兴趣的前缀(I, we,…)的术语,并提取空格后的单词。

    下面是一个过程的例子:
    <?xml version = " 1.0 " encoding = " utf - 8 " ?>    <宏/>  < parameter key="logverbosity" value="init"/>         <参数键="add label" value="false"/> <参数键="label_type" value="标称"/>   <参数键="create_word_vector" value="true"/> <参数键="vector_creation" value="TF-IDF"/> <参数键="add_meta_information" value="true"/> <参数键="keep_text" value="true"/> <参数键="prune_method"value="none"/> <参数键="prune_below_percent" value="3.0"/> <参数键="prune_above_percent" value="30.0"/> <参数键="prune_above_rank" value="0.05"/> <参数键="prune_above_rank" value="0.95"/> <参数键="data_management" value="double_sparse_array"/> <参数键="data_management" value="auto"/>   <参数键="mode" value="non letters"/> <参数键="characters" value="。:"/> <参数键="language" value="English"/> <参数键="max_token_length" value="3"/>   <参数键="max_length" value="2"/>                          


    问候,
    Balazs
    Buggia
  • BuggiaBuggia 成员职位:4新手
    解决方案接受
    嗨BalazsBarany
    谢谢你的回答。由于我对编码语言不是很熟悉,您能给我解释一下流程中涉及到的“operatos”吗?
    再次感谢您的帮助。
  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:819独角兽
    解决方案接受
    嗨Buggia !

    第一个操作符只是创建一个带有示例文本的文档。它的输出到“Process Documents”。这是一个容器,用于在其中执行其他操作符。

    Tokenize将单词按照“单词边界”分割为单个单元,就像空格一样。
    Generate n-grams (Terms)创建每一个词对的组合。(有生成字格(字符)这将做同样的事情,但对单词中的字符。)
    Filter Tokens by Content保留与正则表达式匹配的生成的“令牌”(n-grams)。在这里,我使用^ (I_ | we_)。+在符号的开头用单词来指代我或我们。这些就是你要找的词。如果您想扩展正则表达式,请将您的项添加到圆括号中,并用管道|作为分隔符。

    就是这样。单词列表输出包含在文本中找到的组合及其频率。

    BTW,每个操作员都有广泛的文档在帮助标签在Studio。

    问候,
    Balazs
    btibert Buggia

答案

  • BuggiaBuggia 成员职位:4新手
    它的工作原理。非常感谢。你是惊人的。
  • BuggiaBuggia 成员职位:4新手
    我再次打开这个话题是因为我有另一个关于这个过程的问题。手术效果很好,我设法得到了我的结果。但我不明白软件是如何给一组特定的单词赋予特定的价值的。例如,集合“I_bought”在第295行等于0.303,在第191行等于0.278。这些数字指的是什么?
  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:819独角兽
    这就跟你问声好!

    在文本挖掘上下文中创建属性的默认方法是TF-IDF: Term Frequency, Inverse Document Frequency。
    术语频率:一个单词(标记)在文档中的频率。
    逆文档频率:单词(标记)在多少个文档中。

    您可以在“Process Documents”的“vector creation”参数中选择另一种方法。例如,术语出现只是给你一个数字。

    Word列表输出总是包含绝对数字,这就是我推荐使用它的原因。有一个操作符“WordList to data”用于将特殊表转换为普通表,例如用于进一步处理或将内容放入数据库。

    问候,
    Balazs
登录注册置评。