以服务于中国广大创业者为己任,立志于做最好的创业网站。

标签云创业博客联系我们

导航菜单

视频字幕文本自动生成 视频字幕自动生成软件

  

  这个文本光学字符识别小工具使您能够“剪切并获取”。更多实用工具和干货,记得关注边肖!   

  

  我们在办公的时候,经常会遇到把图片内容转换成文字的需求吗?   

  

  你用什么工具解决的?手机是否配备了图片转文字功能?还是用QQ里的工具?   

  

  今天,我们将介绍一个GitHub用户ianzhao05。   

  

  ――新发布的小工具textshot,只需截图即可实时生成文字。读者也可以通过这个项目了解如何识别图像中的文字。   

  

     

  

  项目链接:https://github.com/ianzhao05/textshot.   

  

  #如何使用它。   

  

  运行textshot.py,在屏幕上打开一个覆盖图,并在要提取的文本区域中绘制一个矩形。   

  

  使用可选命令行参数指定语言。例如,pythontextshot.pyengfra。   

  

  英语将作为第一语言,法语作为第二语言。默认值为英语(英语)。确保为其他语言安装了宇宙魔方的数据文件。   

  

  建议将热键附加到此工具。对于Windows,您可以使用自动热键脚本来完成此操作。textshot.ahk   

  

  它还包含一个可以使用的AHK脚本示例。   

  

  如果是Ubuntu系统,可以打开“键盘设置”,显示所有Gnome。   

  

  捷径。底部有一个“”按钮,可以用来添加自己的快捷方式。单击并将其命令设置为/usr/bin/pyt 3 text shot . py.如果使用venv,上面的python3路径应该指向venv的python3,而不是全局python3。   

  

     

  

  部分代码演示。   

  

  #如何安装?   

  

  1.安装python3   

  

  2.复制TextShot库,使用跳转命令cd进入库;   

  

  3.(可选)创建虚拟环境,例如,使用python-m venv . venv;   

  

  使用pip install -r requirements.txt安装所需的软件包;   

  

  5.安装谷歌的Tesseract OCR引擎(https://github.com/tesserract-OCR/tesserract),通过将目录添加到系统路径,确保可以从命令行访问tesserract。   

  

  这个实用小工具的开发也离不开谷歌经典的OCR开源项目Tesseract。   

  

  使用# Tessract。   

  

  Tesseract是目前用于机器打印字符识别的最佳开源OCR工具。由惠普在20世纪80年代开发,2005年。   

  

  开源,自2006年由谷歌赞助。该工具也可以在受控条件下运行良好,但是如果有大量噪音或图像输入到宇宙魔方中。   

  

  没有适当的治疗,表现很差。   

  

     

  

  宇宙魔方光学字符识别引擎出现于20世纪80年代,至今一直在更新和迭代。它包括一个内置的深度学习模型,并已成为一个非常强大的光学字符识别工具。   

  

  宇宙魔方支持Unicode(UTF-8)字符集,可以识别100多种语言,还包括多种输出支持,如纯文本、PDF和TSV。   

  

  等等。但是,为了获得更好的OCR结果,有必要提高提供给Tesseract的图像质量。   

  

  值得注意的是,在执行实际的光学字符识别之前,宇宙魔方将在内部执行许多不同的图像处理操作。   

  

  图书馆)。通常表现不错,但在某些特定情况下,效果不够好,导致准确率明显下降。将图像传递给宇宙魔方。   

  

  以前,可以尝试以下图像处理技术,但使用哪种技术取决于用户想要读取的图像:   

  

  1.反转图像。   

  

  2.重新缩放。   

  

  3.二值化。   

  

  4.消除噪音。   

  

  5.旋转/调整倾斜角度。   

  

  6.移除边缘。   

  

  所有这些操作都可以使用OpenCV或者通过Python使用numpy来实现。   

  

  最新版本的tesserract(v4)支持基于深度学习的OCR,准确率显著提升。底层的光学字符识别引擎使用循环神经网络(RNN-LSTM网络)。   

  

  #中文OCR项目。   

  

  身份证识别、火车票识别等中文OCR是常规操作,还可以实现更炫酷的功能,比如翻译笔在书上滑动一行,自动获取完整图像,识别翻译中文。   

  

  目前常用的中文ocr开源项目是中文OCR,它基于YOLO V3和CRNN实现了中文自然场景文本的检测和识别。   

  

  2.5K星量。   

  

  我介绍了另一个开源的中文ocr项目,这是一个基于中文OCR的超轻汉字识别项目。   

  

  项目地址:https://github.com/ouyanghuiyu/chineseocr_lite.   

  

  根据项目介绍,与中文ocr相比,中文ocr_lite采用了轻量级骨干网PSENet、轻量级CRNN模型和行文本方向分类网络。   

  

  AngleNet .虽然还有很多能力需要实现,但是chineseocr_lite的整体模型只有17M。目前中文ocr_lite。   

  

  支持任意方向的文字检测,识别时会自动判断文字方向。实测效果示例如下图所示:   

  

     

  

  反向写作是一个专注于程序员圈的技术平台。可以获得最新的技术动态,最新的内测资质,BAT等大公司的经验,优秀的学习资料,职业路线和副业思维,关注微信搜索。