Распознавание рукописного текста в школьных тетрадях
ODS.
Соревнование, проводимое в рамках олимпиады НТО, разработанное Сбером. ПлатформаРезультаты Public
Задача
Вам нужно разработать алгоритм, который способен распознать рукописный текст в школьных тетрадях. В качестве входных данных вам будут предоставлены фотографии целых листов. Предсказание модели — список распознанных строк с координатами полигонов и получившимся текстом.
Как должно работать решение?
Последовательность двух моделей: сегментации и распознавания. Сначала сегментационная модель предсказывает полигоны маски каждого слова на фото. Затем эти слова вырезаются из изображения по контуру маски (получаются кропы на каждое слово) и подаются в модель распознавания. В итоге получается список распознанных слов с их координатами.
Модели
- модель X101-FPN из зоопарка моделей detectron2 + аугментации + высокое разрешение
Optical Character Recognition (OCR)
- архитектура CRNN с бекбоном Resnet-34, предобученным на топ 1 модели соревнования Digital Peter
- модель KenLM, обученная на данных сорвенования Feedback, Решу ОГЭ/ЕГЭ, а также CTCDecoder
Ресурсы & Submit
Christofari с NVIDIA Tesla V100 и образом jupyter-cuda10.1-tf2.3.0-pt1.6.0-gpu:0.0.82
Мы не гарантируем поддержку сабмита всё время, поэтому предоставляем 2 ссылки: Google Drive и Yandex
Цитирование
@misc{nto-ai-text-recognition,
author = {Arseniy Shahmatov and Gerasomiv Maxim},
title = {notebook-recognition},
howpublished = {\url{https://github.com/Lednik7/nto-ai-text-recognition}},
year = {2022}
}