pytesseract
项目核心内容总结:
Python Tesseract 是基于 Google Tesseract-OCR 引擎的 Python 光学字符识别(OCR)工具,用于从图像中提取文字。支持多种图像格式(如 JPEG、PNG、BMP 等),可作为库或独立脚本使用,输出识别结果或保存为 PDF/HOCR 等格式。
功能与使用方法:
- 基本用法:通过
image_to_string函数识别图像文字,支持指定语言(如lang='fra'识别法语)。 - 高级功能:提供边界框(
image_to_boxes)、详细数据(image_to_data)、PDF 输出(image_to_pdf_or_hocr)、ALTO XML 等多种输出类型。 - OpenCV 支持:兼容 OpenCV 图像,需将 BGR 格式转换为 RGB。
- 配置自定义:可通过
config参数设置 Tesseract 配置(如--psm 6),或指定tessdata路径解决数据文件缺失问题。
主要特性:
- 支持多语言识别(需安装对应语言包)。
- 批量处理图像文件(通过文件路径列表)。
- 超时控制(防止长时间无响应)。
- 多输出格式(文本、PDF、HOCR、XML 等)。
- 兼容 Pillow 和 OpenCV 图像处理库。
安装要求:
需 Python 3.6+、Pillow 库及 Tesseract-OCR 引擎。可通过 pip install pytesseract 或 Conda 安装。若 Tesseract 未加入系统路径,需手动设置 pytesseract.tesseract_cmd 指向可执行文件路径。