标记操作符问题-帮助请求

amitdamitd 委员,大学教授职位:49Maven
2022年2月编辑 帮助
我必须处理一些文件,其中有双重感叹号!!当跟在一个单词后面时,应该是一个单独的标记(例如,句子!!作为记号,不是“句子”和“!!”“分开)。类似地,笑脸字符:)应该是一个单独的标记。当我在Tokenize中使用非字母模式时,单词可以提取,但不是我想要的方式。当mode =正则表达式与表达式[a-zA-Z!:)]+一起使用时,它根本不起作用。我在表达式构建器中测试了正则表达式,当每个文档文本在其预览中测试时,它工作正常。但是,该过程的输出结果是空白。我不知道为什么会发生这种事。我附上了这两个过程。 Can someone please help?

预期输出为(计数未显示)。
:)(我在冒号和之间添加了空格)否则编辑器会将其转换为这样的笑脸表情符号:)
一个
所有
另一个
在这里

最后的


句子
句子! !
句子

然而,


最佳答案

  • amitdamitd 委员,大学教授职位:49Maven
    解决方案接受
    我找到问题所在了。在这里,我们必须使用正则表达式,它是用于分离的标记,而不是我们希望保留的标记。所以正则表达式应该是[.,]+,这样就可以了。
    BalazsBarany
    登录注册置评。