Электронная библиотека - от проекта до реализации
Перевод в машинографический вид графических изображений. Мифы и реальность. Выбор решения.

Понятие машиночитаемость означает сохранение какой-либо информации в виде, понятной для компьютера. Графическое изображение тоже является понятным для компьютера, но как растровый формат, а не текст. Соответственно встает вопрос каким образом переводить это самое графическое изображение в машиночитаемый вид, например, для целей поиска или просто для возможности редактирования, какими инструментами пользоваться и какие существуют мифы относительно данной проблемы. В данной статье попробуем разобраться со всеми перечесиленными пунктами и отразить все подводные камни распознавания.

Исходными данными для распознавания являются любые файлы графического формата, будь то одиночный jpeg-файл или многостраничный tiff. Выходом, например, может быть pdf-формат, позволяющий хранить в себе как отсканированную книгу, так и ее распознанный текст совершенно прозрачно.

Какие же програмные продукты используются? На слуху у всех ABBYY FineReader, успешно развернувшийся на рынке. Но существуют и альтернативные решения, в том числе и отечественной разработки. Это Cunei Form, как раз отечественный продукт, сейчас уже ставший бесплатным, и OmniPage, наиболее богатый по функциям из всех настольных систем. В данном обзоре мы коснемся только этих решений.

Представим, что нам поставлена задача распознать 1000 книг. Простейшим решением является использование обыкновенной десктоп системы или ручной труд сотрудников. Давайте рассмотрим как функционирует такая работа:

  1. В программу загружается набор документов, пришедших со сканирования

  2. Ожидание их прочтения программой

  3. Настройка выходного каталога и возможно параметров работы

  4. Запуск процесса

  5. Ожидание окончания

  6. Повторение пункта 1 до полной обработки всех документов

  7. Загрузка обработанных документов в информационную среду

Возможные проблемы в данном подходе:

  • аварийное завершение программы (сложные настольные программы имеют тенденцию к более частому аварийному завершению)

  • оператор перепутал пакет входных данных

В обоих случаях приходится восстанаваливать исходное состояние и начинать с начала. В итоге, оператор занят довольно таки длительное время. Прикинем примерное время занятости на 300 страниц текста. Ручная работа: п.1 и п.7 ~ 10 мин плюс остальные этапы работы системы ~ 30 минут. Еще отведем на решение возникших проблем ~ 10 мин. Итого около 45 мин общего времени оператора. Неприемлимо долго.

Решением является оптимизация этого процесса путем пакетной обработки. Далее будут продемонстрированы результаты тестирования трех уже знакомых нам системы. ABBYY Recognition Server, OmniPage и CuneiForm под Linux. За тестируемые экземпляры возьмем учебник из 10 книг по 360 страниц и каталожные карточки в количестве 5000 штук. Разрешение возьмем 300 DPI.

Сформулируем выводы по используемым програмным решениям:

 Cunei Form.

  • Отличное соотношение скорости и качества распознавания для целей полнотекстовой индексации

  • Требует некоторого знания Linux систем, но вместе с тем открывает широкие горизонты по быстрой интеграции и построению процесса перевода отсканированного материала в машиночитаемый вид.

 Omni Page.

  • Наиболее доступный вариант, если вам нужно пакетное распознавание и вместе с тем десктоп программу для повседневной работы

  • Не требует знаний ОС и программирования, а так же работает на Windows платформе

 Мифы, связанные с распознаванием текстов

 Программа распознавания текста может работать со 100% точностью.

Действительно может, если ей на вход подать идеальные изображения, например, копию экрана со страницей из редактируемого в настоящий момент офисного документа.

 Программы распознавания текстов могут распознавать любой рукописный текст.

Рукописный текст распознается, но только при следующих условиях:

  • сам текст аккуратно написан

  • написан печатнами заглавными буквами

  • на специальной анкете с полями и маркерами

 Распознавание для поиска. Необходимость в близком к 100% качеству распознавания отсканированных фондов для целей последующего полнотекстового поиска по ним.

Полнотекстовые индексаторы различных информационных систем, извлекающие из документов текстовый слой, дополнительно проводят с ним работу — морфологический разбор, поиск грамматических ошибок по словарю, поиск синонимов и т.п. Все это в результате повышает качество поиска, компенсируя тем самым, часть ошибок на этапе распознавания.

Статья подготовлена по материалам Ливотова Д.Л. с семинара «Вузовская библиотека в электронной среде управления знаниями»

Модели реализации электронных библиотек
Выбор технологий
Технологии
Оцифровка (сканирование)
Сканирование картотек
Сканирование книг, журналов
Хранилища данных
Интеграции систем
Предпроектная поддержка (консультация)
Реализация под ключ
Техническая поддержка
Нормативно-методическая поддержка
Правовая и юридическая поддержка
Статьи
Глоссарий
Задать вопрос
Организация:
Город:
ФИО:
Должность:
Контактный телефон:
E-mail:
Вопрос:
eXTReMe Tracker
www.alee.ru
www.bibliostorm.ru
www.scandocs.ru