Заполнение форм данными из печатного бланка с рукописными данными.
Описание проблемы
Данные методы широко используются в различных сферах, например, образовании. Здесь данная технология используется, чтобы подсчитывать баллы по результатам какого-либо тестирования, и т. д. Бланки для тестирования знаний имеют определенную форму, куда тестируемый заносит данные (буквы и символы). Используются подобные бланки и в миграционной и налоговой службах. Например, на рисунке 1.1. показан… Читать ещё >
Заполнение форм данными из печатного бланка с рукописными данными. Описание проблемы (реферат, курсовая, диплом, контрольная)
В настоящее время при заполнении форм в компьютерном виде часто необходимо данную форму заполнить данными из ранее напечатанного бланка, который был заполнен от руки. Для этого печатный документ сканируется, и специальная программа распознает написанные в нем символы. В основе данного процесса лежит алгоритм распознавания текста.
Системы распознавания текста или OCR-системы (Optical Character Recognition) предназначены для автоматического ввода документов в компьютер. Это может быть страница книги, журнала, словаря, какой-то рукописный документ (заполненная анкета, заполненый бланк тестирования, результаты опроса и т. д.) — все, что угодно, что было уже напечатано, либо написано от руки и должно быть преобразовано в электронную форму.
OCR-системы распознают текст и различные его элементы (картинки, таблицы, графики) с электронного изображения. Изображение получается обычно путем сканирования документа и реже — его фотографированием. Поступившее изображение обрабатывается алгоритмом OCR-программы, выделяются области текста, изображений, таблиц, отделяется мусор от нужных данных.
На следующем этапе каждый символ сравнивается со специальным словарем символов, и если находится соответствие, то этот символ считается распознанным. В итоге мы получаем набор распознанных символов, то есть искомый текст.
Современные OCR-системы представляют собой достаточно сложные программные решения. Ведь текст может быть замусорен, искажен, загрязнен, и программа должна это учитывать и уметь правильно обрабатывать такие ситуации. Кроме того, современные OCR-системы позволяют также получить копию печатного документа в электронном виде с сохранением форматирования, стилей, размеров текста и видов шрифтов и т. д.
ArioForm — решение для обработки большого объема данных, оформленных по определенному шаблону (таких как результаты тестов и опросов, бланки, отчеты, различные формы). Возможности программы позволяют создавать и распознавать формы практически любой сложности, содержащие печатный текст, поля ввода рукописного текста, поля выбора одного или нескольких параметров, графические элементы. Программа также имеет набор уже созданных шаблонов.
Распознавание рукописного ввода — это способность компьютера получать и интерпретировать рукописный ввод. Распознавание текста может производиться «офлайновым» методом из уже написанного на бумаге текста или «онлайновым» методом считыванием движений кончика ручки, к примеру по поверхности специального компьютерного экрана.
Данные методы широко используются в различных сферах, например, образовании. Здесь данная технология используется, чтобы подсчитывать баллы по результатам какого-либо тестирования, и т. д. Бланки для тестирования знаний имеют определенную форму, куда тестируемый заносит данные (буквы и символы). Используются подобные бланки и в миграционной и налоговой службах. Например, на рисунке 1.1. показан бланк уведомления о временном прибытии иностранного гражданина на территорию Российской Федерации.
Рисунок 1.1 — Бланк уведомления о прибытии иностранного гражданина На данном бланке все данные вносятся в специальные поля, причем шрифтом, максимально схожим с тем, что дан в верхней части для образца. Это обеспечит точное распознавание текста в соответствии с написанным. Бланк имеет темно серый фон. Вверху по краям углом расположены маркеры положения — черные квадраты. По данным меткам программа ориентирует точное положение отсканированного документа, после чего начинает последовательный анализ записанных данных.