Начало работы

Установка

Базовая установка (только инференс):

pip install manuscript-ocr

Установка с поддержкой обучения (включает PyTorch):

pip install manuscript-ocr[dev]

Будут установлены дополнительные зависимости для обучения моделей:

  • PyTorch и TorchVision

  • Инструменты экспорта ONNX

  • Утилиты для обучения (albumentations, TensorBoard и др.)

  • Инструменты разработки (pytest, black, flake8 и др.)

Аппаратное ускорение GPU (NVIDIA CUDA):

pip install manuscript-ocr
pip install onnxruntime-gpu

Ускорение на Apple Silicon (CoreML):

pip install manuscript-ocr
pip install onnxruntime-silicon

Быстрый старт

Пример базового использования:

from manuscript import Pipeline

# Create pipeline
pipeline = Pipeline()

# Process image
result = pipeline.predict("document.jpg")

# Get recognized text
text = pipeline.get_text(result["page"])
print(text)

Основные компоненты

  • Pipeline — высокоуровневый OCR-конвейер

  • EAST — детектор текста

  • TRBA — модель распознавания текста

  • CharLM - Character-level text corrector

  • Page — структура данных страницы

  • Block — структура данных блока

  • Line — структура данных строки

  • Word — структура данных слова