Ланграф-СКРИНС

Ланграф-СКРИНС  - комплект базовых программных модулей распознавания слитно-рукописного и печатного текста.
Области применения: обработка рукописей, автоматизация процессов анкетирования, тестирования, сортировка рукописных документов, обработка бланков, документооборот.
Возможна разработка оригинального программного обеспечения для финальной интерпретации распознанной текстовой информации по требованиям Заказчика.

Комплект базовых модулей:

DRV-SKRINS-BIN - бинаризация, выравнивание, удаление шумов и артефактов.
DRV-SKRINS-SEG - выделение сегментов на форме
DRV-SKRINS-DIG - распознавание цифр
DRV-SKRINS-TXT - распознавание текстовых строк
DRV-SKRINS-BIN – модуль интеллектуальной обработки графической информации с целью улучшения читаемости и программной обработки содержащейся текстовой информации.
Функциональность:

  • Бинаризация сложных входных изображений. Каждый пиксель входного изображения классифицируется с учетом соседних пикселей, определяется, относится ли данный пиксель к тексту.
  • Выделение участков изображения, содержащих необходимый для бинаризации текст. Исключаются участки с картинками, элементами форм, задним фоном и т.д.
  • Устранение шумов и артефактов бинаризации. Отбрасываются дефекты изображения, группы пикселей, не являющиеся текстом.
  • Выравнивание изображения относительно расположения строк текста.

DRV-SKRINS-SEG - модуль обработки структурированной графической информации, разделенной на геометрические формы.

Функциональность объединяет в себе две методики выделения информационных областей на изображении:

  • Выделение по геометрическим признакам: используется в случае сильно-структурированной графической информации, как правило, в случае наличия на изображении таблиц, горизонтальных и вертикальных линий, форм ввода информации, специальных опознавательных знаков. Алгоритм адаптивный, т.е. для правильной работы не требуется знания о покоординатном расположении структурных элементов на изображении, лишь общее представление о виде документа.
  • Выделение с использованием машинного обучения - используется, в случае слабо структурированной графической информации, когда блоки информации визуально отделены друг от друга имеется логическое разбиение текстовой информации, но геометрические разделители отсутствуют. Создается модель документа, на основе которой выделяется информация из входных изображений.
  • Если входные изображения содержат в себе как сильно структурированные, так и слабо структурированные данные, применяется комбинированный вариант – и геометрический, и нейросетевой.

DRV-SKRINS-DIG – модуль распознавания рукописных и машинописных цифр.

Функциональность:

  • Выделение на входном изображении строк с рукописными и машинописными цифрами, нахождение координат интересующих областей;
  • Предобработка выделенных областей, увеличение контрастности текста, удаление искажений, выравнивание наклона почерка;
  • Сегментация отобранного региона на области с независимыми символами, предобработка и нормализация выделенных символов;
  • Использование методов глубокого машинного обучения  для распознавания как машинописных, так и рукописных  цифр на входных изображениях.
  • Обученная нейросеть имеет возможность распознавать нестандартные варианты написания цифр, не использовавшиеся при обучении;

DRV-SKRINS-TXT - модуль распознавания рукописных текстовых строк.

Функциональность:

  • Выделение рукописных строк на входном изображении, нахождение координат интересующих областей;
  • Предобработка выделенных областей, увеличение контрастности текста, удаление искажений, выравнивание наклона почерка.
  • Использование методов глубокого машинного обучения для распознования рукописных строк с использованием End-to-End подхода. Входное изображение обрабатывается нейросетью целиком, выдавая в качестве результата матрицу распределения вероятностей для рукописной строки.
  • Применение современных подходов в области сверточных и рекуррентных нейронных сетей, что в совокупности дает как высокую описательную способность сети с точки зрения векторизации входной строки (сверточная часть), так и высокий результат обработки последовательностей символов, которые представляет из себя текстовая строка (рекуррентная часть).
  • Использование алгоритма построения текстовой фразы при помощи словаря, на основе полученной от нейросети матрицы распределения вероятностей.