Начало работы
Установка
Базовая установка (только инференс):
pip install manuscript-ocr
Установка с поддержкой обучения (включает PyTorch):
pip install manuscript-ocr[dev]
Будут установлены дополнительные зависимости для обучения моделей:
PyTorch и TorchVision
Инструменты экспорта ONNX
Утилиты для обучения (albumentations, TensorBoard и др.)
Инструменты разработки (pytest, black, flake8 и др.)
Аппаратное ускорение GPU (NVIDIA CUDA):
pip install manuscript-ocr
pip install onnxruntime-gpu
Ускорение на Apple Silicon (CoreML):
pip install manuscript-ocr
pip install onnxruntime-silicon
Быстрый старт
Пример базового использования:
from manuscript import Pipeline
# Create pipeline
pipeline = Pipeline()
# Process image
result = pipeline.predict("document.jpg")
# Get recognized text
text = pipeline.get_text(result["page"])
print(text)
Примеры ноутбуков
Актуальные примеры ноутбуков доступны в папке notebooks репозитория:
Основные компоненты
Pipeline— высокоуровневый OCR-конвейерYOLO— ONNX-детектор текста для моделей семейства YOLOEAST— детектор текстаSimpleSorting— модель упорядочивания layoutTRBA— распознаватель текстаCharLM— посимвольный корректор текстаPage— структура данных страницыBlock— структура данных блокаLine— структура данных строкиTextSpan— минимальный текстовый регион OCR
Зоопарк моделей
Список встроенных пресетов и релизных артефактов, задокументированных для этой версии документации, см. в Зоопарк моделей.