如何从大文本(txt格式)提取特定部分(节)?
Enthusiast21
成员职位:6新手
在帮助
最佳答案
-
kayman 成员职位:662独角兽嗨@Enthusiast21,正如讨论过的那样,找到了解决问题的另一种方法,首先按页面拆分(双面),然后过滤包含术语的页面(年度报告),然后使用更宽松的方法来确定左页或右页内容。这样看起来比较好,也许你可以从那里走得更远。
6
答案
你的章节是由换行符绑定的,还是你的下一节以类似于模式的东西开始?
所以这个想法是先把内容分成左右两页,然后再得到部分?
你可以通过分割字符串长度来将页面分成两部分,所以基本上前70个字符属于第一页,70到140个字符属于第二页。拆分然后合并可以在一个流中获得两个页面。
在附件中可以找到一些快速和肮脏的方法。
关于模式——我知道开头是独立审计员的报告,但我不知道结尾是日期,但如何不把所有以日期结束的东西都拿出来呢?除了单词,我还能找到什么类型的模式?
非常感谢您的支持!
然后在将解码url的操作符的解码更改为utf-8后再对数据进行尝试,这也可以解决原始文本的一些编码问题。