Начало работы

Установка

Базовая установка (только инференс):

pip install manuscript-ocr

Установка с поддержкой обучения (включает PyTorch):

pip install manuscript-ocr[dev]

Будут установлены дополнительные зависимости для обучения моделей:

PyTorch и TorchVision
Инструменты экспорта ONNX
Утилиты для обучения (albumentations, TensorBoard и др.)
Инструменты разработки (pytest, black, flake8 и др.)

Аппаратное ускорение GPU (NVIDIA CUDA):

pip install manuscript-ocr
pip install onnxruntime-gpu

Ускорение на Apple Silicon (CoreML):

pip install manuscript-ocr
pip install onnxruntime-silicon

Быстрый старт

Пример базового использования:

from manuscript import Pipeline

# Create pipeline
pipeline = Pipeline()

# Process image
result = pipeline.predict("document.jpg")

# Get recognized text
text = pipeline.get_text(result["page"])
print(text)

Примеры ноутбуков

Актуальные примеры ноутбуков доступны в папке notebooks репозитория:

Основные компоненты

Pipeline — высокоуровневый OCR-конвейер
YOLO — ONNX-детектор текста для моделей семейства YOLO
EAST — детектор текста
SimpleSorting — модель упорядочивания layout
TRBA — распознаватель текста
CharLM — посимвольный корректор текста
Page — структура данных страницы
Block — структура данных блока
Line — структура данных строки
TextSpan — минимальный текстовый регион OCR

Зоопарк моделей

Список встроенных пресетов и релизных артефактов, задокументированных для этой версии документации, см. в Зоопарк моделей.