Начало работы

Установка

Базовая установка (только инференс):

pip install manuscript-ocr

Установка с поддержкой обучения (включает PyTorch):

pip install manuscript-ocr[dev]

Будут установлены дополнительные зависимости для обучения моделей:

PyTorch и TorchVision
Инструменты экспорта ONNX
Утилиты для обучения (albumentations, TensorBoard и др.)
Инструменты разработки (pytest, black, flake8 и др.)

Аппаратное ускорение GPU (NVIDIA CUDA):

pip install manuscript-ocr
pip install onnxruntime-gpu

Ускорение на Apple Silicon (CoreML):

pip install manuscript-ocr
pip install onnxruntime-silicon

Быстрый старт

Пример базового использования:

from manuscript import Pipeline

# Create pipeline
pipeline = Pipeline()

# Process image
result = pipeline.predict("document.jpg")

# Get recognized text
text = pipeline.get_text(result["page"])
print(text)

Основные компоненты

Pipeline — высокоуровневый OCR-конвейер
EAST — детектор текста
TRBA — модель распознавания текста
CharLM - Character-level text corrector
Page — структура данных страницы
Block — структура данных блока
Line — структура данных строки
Word — структура данных слова