Конвейер
Основной высокоуровневый интерфейс для OCR-обработки.
- class manuscript._pipeline.Pipeline(detector=<object object>, layout=<object object>, recognizer=<object object>, corrector=None, layout_after='detector')[исходный код]
Базовые классы:
objectВысокоуровневый OCR-конвейер с настраиваемым порядком этапов.
Конвейер по умолчанию:
detector -> layout -> recognizer.correctorнеобязателен и по умолчанию отключён.- Атрибуты:
- last_correction_page
- last_detection_page
- last_layout_page
- last_recognition_page
- Параметры:
detector (DetectorProtocol)
layout (LayoutProtocol | None)
recognizer (RecognizerProtocol | None)
corrector (CorrectorProtocol | None)
layout_after (str)
Методы
get_text(page)Извлечь обычный текст из объекта
Page.predict(image[, vis, profile])Запустить конвейер на одном изображении.
- __init__(detector=<object object>, layout=<object object>, recognizer=<object object>, corrector=None, layout_after='detector')[исходный код]
Инициализация OCR-конвейера.
- Параметры:
detector (object, optional) – Экземпляр детектора с интерфейсом
predict(image) -> Page. Если не указан, используетсяYOLO(weights="yolo26x_obb_text_g1")по умолчанию. Детектор отключить нельзя.layout (object or None, optional) – Экземпляр layout-модели с интерфейсом
predict(page, image=None) -> Page. Если не указан, используетсяSimpleSorting()по умолчанию. ПередайтеNone, чтобы отключить этап layout.recognizer (object or None, optional) – Экземпляр распознавателя с интерфейсом
predict(page, image=None, ...) -> Page. Если не указан, используетсяTRBA(weights="trba_lite_g2")по умолчанию. ПередайтеNone, чтобы отключить этап распознавания.corrector (object or None, optional) – Экземпляр корректора с интерфейсом
predict(page, image=None) -> Page. По умолчаниюNone(отключён).layout_after ({"detector", "recognizer", "corrector"}, optional) – Слот, в котором выполняется этап layout. По умолчанию
"detector".
- predict(image, vis=False, profile=False)[исходный код]
Запустить конвейер на одном изображении.
- get_text(page)[исходный код]
Извлечь обычный текст из объекта
Page.