home

Постатейное распознавание газет – миф или реальность

?
Постатейное распознавание газет – миф или реальность
Newspaper articles recognition – myth or reality
А. В. Анисимов, Н. С. Дикий
ООО «АЛАНИС Софтвер»,
Новосибирск, Россия
Aleksey Anisimov and Nikolay Dikiy
ALANIS Sofware,
Novosibirsk, Russia
В докладе рассматривается проблема оцифровки газетных материалов в рамках проектов сохранения исторического наследия с прикладной точки зрения. Описывается основная проблема, препятствующая получению структурированных содержательных элементов (статей) в результате автоматического распознавания, а также важность получения таких результатов оцифровки применительно
к деятельности библиотек, архивов, и других специализированных организаций. В части предлагаемого решения, в докладе описывается успешный опыт создания программного решения компанией
«АЛАНИС Софтвер» в рамках долгосрочного проекта оцифровки исторических газет в сотрудничестве с немецкими партнерами.
Digitization of newspaper materials within the framework of historical heritage preservation projects is discussed. The main problem that inhibits obtaining structured content elements (articles) through machine
recognition is described, and the value of digitization for libraries, archives and other specialized organizations is emphasized. As a solution, the software package is designed by ALANIS Software Company within
the framework of the long-term project of historical newspapers digitization being accomplished in collaboration with German partners.
Актуальность

Сохранить максимально возможный объем цивилизационного наследия для потомков – одна
из главных задач современного развитого общества. В связи с чем, в настоящее время во всѐм мире
проводится массовая оцифровка бумажных носителей.
Особое внимание данному вопросу уделяется странами Европейского Союза, США, Австралией, где, к настоящему моменту, большая часть коллекций специализированных учреждений уже
в том или ином виде оцифровано в рамках государственных и надгосударственных программ,
а также в рамках частных инициатив.
Оцифровка в наше время – неизбежный путь сохранения культурного, научного и исторического наследия человечества. Правильно организованный проект оцифровки позволяет читателю
получить доступ к нужной информации в любое время и в любом месте, где есть доступ в интернет, а также открывает новые перспективы монетизации доступа к фондам для библиотек, архивов
и других организаций, владеющих коллекциями документов.
Оцифровка бумажных фондов библиотек, архивов в России пока ещѐ значительно отстает от
вышеуказанных стран, и в первую очередь, из-за отсутствия или недоступности необходимого
инструментария.
Данный доклад посвящен проблематике оцифровки газет, как одного из ценнейших составляющих культурного, научного и исторического наследия и всеобъемлющих источников самой
различной информации. Каждый номер газеты – это, в некотором смысле, «срез» состояния общества на дату его выхода.
Одной из основных проблем, которые возникают при оцифровке газет, является отсутствие
доступных высококачественных специализированных КОМПЬЮТЕРНЫХ ПРОГРАММ для
постатейного распознавания.
Практически все оцифрованные газеты – это либо просто сканы, либо сканы, снабженные неструктурированным низкокачественным распознаванием, которое, в лучшем случае, обеспечивает
минимальные поисковые возможности.

1