Tesseract 사용

https://pymupdf.readthedocs.io/en/latest/about.html 사이트에서 주요 내용을 발췌함. 자세한 내용을 사이트 참고 바람

Feature

Supports Multiple Document Formats
- PDF, XPS, EPUB, MOBI, FB2, CBZ, SVG, TXT, Image

-Implementation

Installation

pip install --upgrade pymupdf

Build and install from a local PyMuPDF source tree

git clone https://github.com/pymupdf/PyMuPDF.git

cd PyMuPDF && pip install .

PyMuPDF에서 OCR 기능을 사용하려면 Tesseract의 언어 지원 데이터가 필요합니다. 이를 위해 다음 단계를 완료해야 합니다:

Tesseract의 언어 지원 폴더 위치를 확인합니다:
- Windows: C:/Program Files/Tesseract-OCR/tessdata
- Unix 시스템: /usr/share/tesseract-ocr/4.00/tessdata
환경 변수 TESSDATA_PREFIX를 설정합니다:
- Windows: setx TESSDATA_PREFIX “C:/Program Files/Tesseract-OCR/tessdata”
- Unix 시스템: declare -x TESSDATA_PREFIX=/usr/share/tesseract-ocr/4.00/tessdata