这个文本光学字符识别小工具使您能够“剪切并获取”。更多实用工具和干货,记得关注边肖!
我们在办公的时候,经常会遇到把图片内容转换成文字的需求吗?
你用什么工具解决的?手机是否配备了图片转文字功能?还是用QQ里的工具?
今天,我们将介绍一个GitHub用户ianzhao05。
――新发布的小工具textshot,只需截图即可实时生成文字。读者也可以通过这个项目了解如何识别图像中的文字。
项目链接:https://github.com/ianzhao05/textshot.
#如何使用它。
运行textshot.py,在屏幕上打开一个覆盖图,并在要提取的文本区域中绘制一个矩形。
使用可选命令行参数指定语言。例如,pythontextshot.pyengfra。
英语将作为第一语言,法语作为第二语言。默认值为英语(英语)。确保为其他语言安装了宇宙魔方的数据文件。
建议将热键附加到此工具。对于Windows,您可以使用自动热键脚本来完成此操作。textshot.ahk
它还包含一个可以使用的AHK脚本示例。
如果是Ubuntu系统,可以打开“键盘设置”,显示所有Gnome。
捷径。底部有一个“”按钮,可以用来添加自己的快捷方式。单击并将其命令设置为/usr/bin/pyt 3 text shot . py.如果使用venv,上面的python3路径应该指向venv的python3,而不是全局python3。
部分代码演示。
#如何安装?
1.安装python3
2.复制TextShot库,使用跳转命令cd进入库;
3.(可选)创建虚拟环境,例如,使用python-m venv . venv;
使用pip install -r requirements.txt安装所需的软件包;
5.安装谷歌的Tesseract OCR引擎(https://github.com/tesserract-OCR/tesserract),通过将目录添加到系统路径,确保可以从命令行访问tesserract。
这个实用小工具的开发也离不开谷歌经典的OCR开源项目Tesseract。
使用# Tessract。
Tesseract是目前用于机器打印字符识别的最佳开源OCR工具。由惠普在20世纪80年代开发,2005年。
开源,自2006年由谷歌赞助。该工具也可以在受控条件下运行良好,但是如果有大量噪音或图像输入到宇宙魔方中。
没有适当的治疗,表现很差。
宇宙魔方光学字符识别引擎出现于20世纪80年代,至今一直在更新和迭代。它包括一个内置的深度学习模型,并已成为一个非常强大的光学字符识别工具。
宇宙魔方支持Unicode(UTF-8)字符集,可以识别100多种语言,还包括多种输出支持,如纯文本、PDF和TSV。
等等。但是,为了获得更好的OCR结果,有必要提高提供给Tesseract的图像质量。
值得注意的是,在执行实际的光学字符识别之前,宇宙魔方将在内部执行许多不同的图像处理操作。
图书馆)。通常表现不错,但在某些特定情况下,效果不够好,导致准确率明显下降。将图像传递给宇宙魔方。
以前,可以尝试以下图像处理技术,但使用哪种技术取决于用户想要读取的图像:
1.反转图像。
2.重新缩放。
3.二值化。
4.消除噪音。
5.旋转/调整倾斜角度。
6.移除边缘。
所有这些操作都可以使用OpenCV或者通过Python使用numpy来实现。
最新版本的tesserract(v4)支持基于深度学习的OCR,准确率显著提升。底层的光学字符识别引擎使用循环神经网络(RNN-LSTM网络)。
#中文OCR项目。
身份证识别、火车票识别等中文OCR是常规操作,还可以实现更炫酷的功能,比如翻译笔在书上滑动一行,自动获取完整图像,识别翻译中文。
目前常用的中文ocr开源项目是中文OCR,它基于YOLO V3和CRNN实现了中文自然场景文本的检测和识别。
2.5K星量。
我介绍了另一个开源的中文ocr项目,这是一个基于中文OCR的超轻汉字识别项目。
项目地址:https://github.com/ouyanghuiyu/chineseocr_lite.
根据项目介绍,与中文ocr相比,中文ocr_lite采用了轻量级骨干网PSENet、轻量级CRNN模型和行文本方向分类网络。
AngleNet .虽然还有很多能力需要实现,但是chineseocr_lite的整体模型只有17M。目前中文ocr_lite。
支持任意方向的文字检测,识别时会自动判断文字方向。实测效果示例如下图所示:
反向写作是一个专注于程序员圈的技术平台。可以获得最新的技术动态,最新的内测资质,BAT等大公司的经验,优秀的学习资料,职业路线和副业思维,关注微信搜索。