如何循环通过图片进行文本识别

tngo · 2020年6月

大家好！

我是Rapidminer的新手，如果您能提供任何帮助，我将不胜感激。我有一个数据库的url字段。所有的url都是图片。我需要找到一个进程，无需手动单击URL，我仍然可以从我的数据集中的每一行的URL图像提取文本。我的数据集有数十万行。

kayman · 2020年6月

由于rapidminer没有开箱即用的“img to text”操作符，您将需要在这里使用python扩展。

一种可能的工作流程是使用RM循环所有的db记录-> webmining扩展下载图像并将其存储在本地-> python使用例如opencv读取图像-> pytesseract做OCR获取文本->返回文本到Rapidminer并继续下一个图像。

rdesai · 2020年6月

在深度学习扩展与我们的新功能，您可以很容易地通过使用“从图像提取文本”，因为该操作符使用Tesseract OCR库。如果你有多个图像，那么你可以通过在进程中添加另一个称为“读取图像元数据”的操作符来循环图像。

Image: https://us.v-cdn.net/6030995/uploads/editor/vy/929j2rneqxai.png

tngo · 2020年6月

@kayman
嗨，Kayman，谢谢你的帮助!你能详细说明一下如何下载这些图片吗?我使用操作符获取页面，我没有看到从url下载图像的任何选项

tngo · 2020年6月

@rdesai，非常感谢!我试过你的方法，很有效。但是，我要么需要能够从数据库中的url自动下载所有图像到我自己的文件夹，要么需要一种替代方法来运行此操作，而不需要将图像下载到文件夹中。你有什么想法吗?

kayman · 2020年6月

您可以使用[打开文件]操作符，它允许您基于url选择文件。如果你把它和[写文件]操作符结合起来，你可以把它保存在你的磁盘上。您可能需要对宏做一些调整来定义文件名和文件夹，但本质上这应该是正常的。

kayman · 2020年6月

@rdesai哦，哇，我还不知道呢

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与同事建立联系。

如何循环通过图片进行文本识别

答案