Электронная библиотека - от проекта до реализации
Технологии оцифровки газет и журналов

Оцифровка газет и журналов занимает особое место в своей отрасли. Это объясняется многими причинами. В таких проектах обычно заинтересованы государственные институты. В газетах собрана не просто информация, а новости, исторические события времени их издания. Поэтому оцифровке старых выпусков газет уделяется столь пристальное внимание, они являются печатным наследием, хранят историческую память. Кроме того, срок жизни газетной бумаги не велик и ограничен примерно 50 годами. Ситуация с журналами примерно такая же, с той только разницей, что журналы - порождение более новой эпохи.

 Почему надо оцифровывать?

Оцифрованные материалы, особенно если это редкие и ветхие издания, позволяют увеличить потенциальное количество пользователей, расширяют возможные каналы доступа к искомой информации. Во многих случаях пропадает необходимость использования оригинала. Переведенные в цифровую форму документы могут быть доступны локальным пользователям или, при желании, из интернета. Главным преимуществом так же является возможность полнотекстового поиска.

 Что оцифровывать?

Все то, что еще не оцифровано, хорошего качества и будет востребовано у пользователя. Правда сначала необходимо убедиться, что подобную работу не проделывали до вас. Также важным моментом является легитимность предполагаемых действий: если газеты попадают под закон о защите авторских прав, нужно заключать договор с правообладателем.

 Цифровые и печатные копии, микрофильмы

Микрофильмирование является основным инструментом долговременного хранения газет. (Микрофильм - фотокопия документов, рукописей, книг и т.п., выполненная с значительным уменьшением на фотопленке или кинопленке)На данный момент большинство организаций придерживаются следующей политики: в первую очередь производится микрофильмирование и только потом оцифровка. Оцифровка может произодиться как с микрофильмов, так и с самих печатных изданий. Сканирование микрофильмов обычно дешевле и быстрее, но многие проекты по оцифровке показали, что лучшее качество и распознование получалось при работе с оригинальными печатными копиями.

 OCR

Полученное цифровое изображение необходимо сделать доступным для поиска - перевести его в машиночитаемый вид. Для этих целей используется OCR (optical character recognition - оптическое распознование текста). Качество распознанного текста главным образом зависит от состояния оригинала. Степень точности может также изменяться в зависимости от выбранного програмного обеспечения OCR и находится обычно в пределах от 68% (без коррекции) до 99,8% (ручная коррекция). Из-за большого разнообразия форматов и состояния исходных материалов качество полученных распознанных документов варьируется от случая к случаю.

 Сегментация и районирование

Качество машиночитаемого текста газеты может быть улучшено, если некоторые текстовые блоки идентефицировать до распознававания. Таким образом выделяют три последовательных этапа: районирование, распознавание и сегментация. На первом этапе страница анализируется с целью идентификации всех элементов на странице,таких как горизонтальные и вертикальные линии, текстовые блоки, иллюстрации. Для каждого элемента определяются и записываются групповые свойства. Следующим шагом является распознование текстовых областей. В течение данного действия позиция каждого слова и символа записывается в специальные "прямоугольные" координаты. На последней стадии - сегментации - результаты анализа топологии и распознавания соединяются для того, чтобы была возможность различать объекты страницы, такие как: статьи, иллюстрации или реклама.

 Метаданные

После того, как текст распознан, для него необходимо завести метаданные, в идеале они должны быть созданы для каждого печатного произведения, выпуска и даже статьи. Данное действие совершается для того, чтобы помочь пользователю найти нужную информацию. Извлечение метаданных из газетных страниц часто является полуавтоматичским процессом.

 Поиск

Доступ к данным коллекции может быть улучшен повышением "интеллекта" поисковых движков. Это может быть добавление классификационных определений к статьям и/или страницам (например, время издания, географическое местоположение). Помимо общих операторов поиска ("и", "или" и тд) современные поисковые технологии предлагают широкий спектр и других возможностей. Например:

  • на основе предудыщих запросов пользователя (индикатор релевантности, который принимает во внимание предыдущие результаты поиска)

  • концептуальное совпадение (релевантность по отношению к похожим образцам)

  • варианты орфорграфии и исправление слов (учитывая изменения исторического лексикона)

  • фонетический поиск

  • лингвистические модули для анализа грамматических вариантов и синонимов

  • авторезюмирование

 Доступ

Поисковые механизмы часто встроены в модули доставки контента. При организации доступа со спецификой на оцифрованные газетные и журнальные фонды учитываются следующие особенности:

  • функциональность масштабирования

  • выделение популярной информации

  • сегментированное выделение информации (опция, позволяющая просматривать блоки раздельно, чтобы пользователи могли выбрать наиболее удобный режим: изображение, распознанный текст, pdf)

  • браузерная навигация от страницы к странице

Пользовательский интерфейс подобных систем содержит стандартные просмотрщики, такие как Flashpaper или Adobe Acrobat Reader. Пользователям необходимо иметь соответствующий плагин для просмотра страниц в таких приложениях. Иногда программируются собственные интерфейсы с использованием Java или Javascript/XHTML. Кто-то рекомендует использовать AJAX.

 Стандарты

Общепринятых стандартов для оцифровки газет не существует. Кое-какие усилия в этом деле предпринимает организация The National Digital Newspaper Program (NDNP). Они разработали руководства, позволяющие успешно овладеть техникой оцифровки газет.

Главной задачей всех проектов по оцифровке газет и журналов является поиск баланса между доступностью и возможностью реализации в рамках имеющихся ресурсов.

Модели реализации электронных библиотек
Выбор технологий
Технологии
Оцифровка (сканирование)
Сканирование картотек
Сканирование книг, журналов
Хранилища данных
Интеграции систем
Предпроектная поддержка (консультация)
Реализация под ключ
Техническая поддержка
Нормативно-методическая поддержка
Правовая и юридическая поддержка
Статьи
Глоссарий
Задать вопрос
Организация:
Город:
ФИО:
Должность:
Контактный телефон:
E-mail:
Вопрос:
eXTReMe Tracker
www.alee.ru
www.bibliostorm.ru
www.scandocs.ru