home

Программно-аппаратный комплекс интеллектуального поиска и анализа больших массивов текстов

?
Программно-аппаратный комплекс интеллектуального поиска
и анализа больших массивов текстов
System for intelligent search
and analysis of large text collections
Г. С. Осипов, И. В. Смирнов, И. А. Тихомиров, И. В. Соченков
Институт системного анализа РАН,
Москва, Россия
Gennady Osipov, Ivan Smirnov, Ilya Tikhomirov and Ilya Sochenkov
Institute for Systems Analysis, Russian Academy of Sciences,
Moscow, Russia
В докладе представлена информация о программно-аппаратном комплексе интеллектуального поиска и анализа больших массивов текстов, который предназначен для автоматизации деятельности
компаний и различных учреждений, которые работают с большими коллекциями электронных документов. Рассмотрены основные функции и архитектура программно-аппаратного комплекса.
The paper presents the system for intelligent search and analysis of large text collections. The system is designed to computerize companies and organizations processing vast arrays of digital documents. Functions
and system architecture are also under consideration.

Программно-аппаратный комплекс интеллектуального поиска и анализа больших массивов
текстов (ПАК) позволяет решать ряд задач, связанных с текстовой аналитикой и построен на базе
технологии Exactus Expert [1]. ПАК состоит из сервера (или группы серверов, объединенных в
кластер) и интеллектуальных сервисов анализа больших коллекций текстовых документов. Основными сервисами являются:
1. Семантический и эксплоративный поиск.
2. Поиск тематически похожих документов.
3. Семантический поиск текстовых заимствований.
4. Формирование, сопоставление и анализ пользовательских коллекций документов.
5. Тематический анализ коллекций документов.
6. Автоматическое формирование ключевых слов для документов и коллекций.
7. Автоматическое реферирование документов.
8. Анализ качества научных текстов.
9. Подсветка слов запроса в документах.
Указанные сервисы используют ситуационно-релялионную модель текста[2], специализированные структуры данных и индексы и ряд оригинальных авторских методов [3].
При помощи ПАК можно автоматизировать широкий спектр бизнес-процессов и решить ряд
задач, которые в настоящее время решаются с применением большого числа аналитиков и различных инструментов. Архитектура ПАК представлена на рис. 1.

1