如何从PDF文件开发文字云使用rapidminer

drsvdpdrsvdp 成员职位:1新手
如何从PDF文件开发文字云使用rapidminer

答案

  • GuiGui 成员职位:10因素二世
    您可以在市场上使用文本处理扩展。

    >导入数据(PDF文件)使用“读取文档”(你可以使用“循环文件”并在其中插入“读取文档”操作符来读取所有PDF文件)
    然后,您可以使用“处理文档”来处理您的文本,最后,您可以使用“wordlist to data”并运行“穰”港口连接。打开结果视图,选择左边的可视化,然后选择Word Cloud。至少我认为它现在有帮助,但你可以根据你的喜欢/需要改进这个过程
  • MarcoBarradasMarcoBarradas 管理员,员工,RapidMiner认证分析师,成员职位:246独角兽
    @drsvdp

    请看看文本挖掘教程,并确保您安装了文本挖掘扩展。

    https://academy.www.kenlockard.com/learn/course/text-and-web-mining-with-rapidminer/text-and-web-mining/lets-get-started?page=1

    这个例子可能会对你有所帮助。

    <?xml version="1.0" encoding="UTF-8"?>      < parameter key="logverbosity" value="init"/>            <参数key="vector_creation" value="TF-IDF"/> <参数key="add_meta_information" value="true"/> <参数key="keep_text" value="false"/> <参数key="prune_method" value="none"/> <参数key=" prune_aboow_percent " value="3.0"/> <参数key=" prune_aboow_percent " value="30.0"/> <参数key="prune_above_rank" value="0.05"/> <参数key="prune_above_rank" value="0.95"/> <参数key="数据管理" value="double_sparse_array"/> <参数key="数据管理"value="auto"/>        <参数key="language" value="English"/> <参数key="max_token_length" value="3"/>   <参数key="min_chars" value="4"/> <参数key="max_chars" value="25"/>                               


登录注册置评。