如何从大文本(txt格式)提取特定部分(节)?

Enthusiast21Enthusiast21 成员职位:6新手
亲爱的RM朋友们:

我有500个包含大型报告的文本文件,我只需要提取这些报告的一个部分。由于每个报告都略有不同,我能认出的唯一常见模式是,每个部分的标题都以相同的3个词开头,但在每个部分的末尾写了一些不同的东西,接下来的部分也不一样。我的问题是我如何在一般情况下提取RapidMIner的大文本的一部分(我认为我需要使用一些正则表达式,但到目前为止我找不到任何适合我的任务)。

提前感谢您的支持!微笑:
Tokyo207

最佳答案

答案

  • kaymankayman 成员职位:662独角兽
    正则表达式可能正是您真正需要的。你已经知道从哪里开始,所以是关于在哪里结束的部分。你不需要用言语来限制自己。空格也是一个不错的选择。

    你的章节是由换行符绑定的,还是你的下一节以类似于模式的东西开始?
    Enthusiast21 sgenzer
  • Enthusiast21Enthusiast21 成员职位:6新手
    附件是一份报告的一部分,其中包含我需要提取的两部分(独立审计报告),这是另一个问题-有些报告包含我需要提取的两部分。我在附件中也复制了上一节的结尾和下一节的开头。报告的下一部分总是不同的,所以我找不到一个模式。我需要的每一部分都以一个日期结束,不幸的是,这对他们来说是常见的,但不是唯一的,因为通常报告中还有其他日期。
  • kaymankayman 成员职位:662独角兽
    2019年12月编辑
    不错的挑战:-)
    所以这个想法是先把内容分成左右两页,然后再得到部分?

    你可以通过分割字符串长度来将页面分成两部分,所以基本上前70个字符属于第一页,70到140个字符属于第二页。拆分然后合并可以在一个流中获得两个页面。

    在附件中可以找到一些快速和肮脏的方法。
    text1.rmp 12.4 k
    lionelderkrikor sgenzer
  • Enthusiast21Enthusiast21 成员职位:6新手
    谢谢你解决了我问题的第一部分。很抱歉这个问题,因为我是新手,请问我在哪里输入你发给我的xml Code ?我在xml面板中尝试过,但之后我不知道如何使该进程出现,然后在RapidMiner中运行。

    关于模式——我知道开头是独立审计员的报告,但我不知道结尾是日期,但如何不把所有以日期结束的东西都拿出来呢?除了单词,我还能找到什么类型的模式?

    非常感谢您的支持!
  • kaymankayman 成员职位:662独角兽
    Views -> xml ->粘贴并在保存前打绿色勾
    Enthusiast21
  • Enthusiast21Enthusiast21 成员职位:6新手
    我怎么做才能消除这个错误?
  • kaymankayman 成员职位:662独角兽
    从市场上安装工具箱扩展,但您也可以将其替换为常见的追加操作符
  • Enthusiast21Enthusiast21 成员职位:6新手
    谢谢你!我做到了,但现在我有新问题了。你也能帮我一下吗?
  • kaymankayman 成员职位:662独角兽
    你的原始文件可能有更多问题。您是否已经验证了它与您提供的“for the forum”txt文件是否有效?这样我们就可以确保我们使用的是相同的环境条件。
    然后在将解码url的操作符的解码更改为utf-8后再对数据进行尝试,这也可以解决原始文本的一些编码问题。


  • Enthusiast21Enthusiast21 成员职位:6新手
    与文件“为论坛”它完美地工作,我不明白为什么原来的一个没有,然后我只复制了部分文本从它在新的文本文件,我上传在这里。我尝试使用在线工具将其更改为utf-8,但结果文件没有给出任何更好的结果。有没有别的方法来解码这个文件?
  • kaymankayman 成员职位:662独角兽
    你介意分享全文吗?如果您方便的话,可以在下午发给我。
    Enthusiast21
登录注册置评。