苏木三少
错的不是你,而是这个世界。

python之文字识别

python之文字识别

一、安装pytesseract和PIL

PIL全称:Python Imaging Library,python图像处理库,这个库支持多种文件格式,并提供了强大的图像处理和图形处理能力。
由于PIL仅支持到Python 2.7,所以在PIL的基础上创建了Pillow库,支持最新Python 3.x。

1、pip命令安装

1
pip install pytesseract
1
pip install Pillow

很多小伙伴的pip版本太低这时我们需要升级我们的pip

1
python -m pip install --upgrade pip

 

下面是安装成功的图片

 

二.打开我们的pycharm进行配置

(1)、打开设置选择 项目—Project Interpreter—-点击+—-左上角搜索

Pillow和pytesseract

点击左下角install package

三、下载我们需要安装tesseract-ocr引擎

光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料
点击下载  提取码:coi2

然后我们开始安装

记得安装在自己可以找见位置。

然后把chi_sim.traineddata文件直接拖到OCR安装目录下即可。

四、文件配置

然后我们打开python安装的根目录:

打开pytesseract.py文件进行配置

我们注释掉他的路径,添加自己刚刚安装的tesseract.exe的路径。我的在D盘。

然后打开环境变量:添加TESSDATA_PREFIX

变量值为我们的OCR安装路径。

然后再我们的当初创建的根目录下放一张图片,图片名字为1.png

 

五、结果输出

然后新建py文件复制下面代码:

1
2
3
4
5
6
7
8
9
from PIL import Image
import pytesseract

Image = Image.open('7.png')   # 打开图片
#使用英文解析图片
text = pytesseract.image_to_string(Image)
 #使用简体中文解析图片
#text = pytesseract.image_to_string(Image,lang='chi_sim')
print(text)

 

下面是我们的输出结果:需要注意的是这个识别对我们中文不是怎么友好,大家可以用英文。

我使用的图片

 

 

 

 

 

 

赞(9) 打赏
有问题的朋友随时留言,或者加我为好友。我的QQ是805375353. <<苏木三少博客 » python之文字识别

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

十年之约