Персональный сайт Сергея Попова

Категории раздела

Мои файлы [2]

Статистика
Онлайн всего: 1 Гостей: 1 Пользователей: 0

Каталог файлов

Главная » Файлы » Мои файлы

Закономерность распределения документов по классам близости к бинарным векторам терминов поисковых запросов в политематических массивах

[ Скачать с сервера (87.8 Kb) ]	08.03.2017, 21:53
Закономерность распределения документов по классам близости к бинарным векторам терминов поисковых запросов в политематических массивах коротких документов ©С.В. Попов, 2002, 2007 Опубликовано: Попов С.В. Закономерность распределения документов по классам близости к бинарным векторам терминов поисковых запросов в политематических массивах коротких документов // Альманах «Наука. Инновации. Образование». Вып. 2 ./ РИЭПП. М.: Изд-во «Языки славянской культуры», 2007, с. 96—104. Автор благодарит зав. кафедрой «Системного анализа» МИФИ В.П. Румянцева за конструктивные замечания, профессоров Максимова Н.В. и Попова И.И. за тщательное обсуждение основной гипотезы, использованного метода и выводов, к.т.н. Б.В. Пулькина за детализацию математических выкладок и к.э.н. Соловьеву Г.М. за помощь на всех этапах выполнения работы. Одно из важных открытий в области библиометрии и наукометрии было сделано С. Бредфордом, сформулировавшим закон рассеяния статей по одной тематике в системе периодических изданий [1]. Можно сказать, что эта закономерность характеризует нарастание затрат (количество просматриваемых статей) при попытке найти всю информацию по заданной тематике, начиная поиск с наиболее профильных периодических изданий и переходя к менее профильным. Настоящее исследование направлено на определение таких затрат при работе с ранжирующими информационно-поисковыми системами (ИПС) с бинарной метрикой ( о таких системах можно прочитать, например, в работах [2] и [3] ), в которых в качестве документов исходного поискового массива используются короткие тексты (рефераты, новостные сообщения и т.д.) и/или части больших текстов (например, абзацы статей или книг). В таких ИПС документы исходного массива делятся на классы в зависимости от того, сколько терминов из вектора поискового запроса содержится в каждом из документов. В качестве составляющих вектора запроса и документа выступают ключевые слова, индексы классификаций, дескрипторы, фразы или просто слова естественного языка. При использовании бинарной метрики терминам запроса не приписываются веса значимости и каждому из них соответствуют два возможных состояния: либо он содержится в данном документе либо нет [2. Стр. 143]. Утверждается, что не зависимо от языка, на котором написаны документы (при условии, что вектор запроса состоит из терминов того же языка), для политематических массивов размеры классов (количество документов в классе) подчиняются следующей закономерности не зависимо от тематики поискового запроса... Естественным условием проявления закономерности является то, что термины вектора запроса выбираются не случайно и отражают лексику исследуемой тематической области. Исключается использование в векторе запроса предлогов, союзов, частиц , но допускается использование терминов, присущих не только исследуемой, но и другим тематическим областям. Окончательное определение условий проявления закономерности требует продолжительных экспериментов, но уже первые опыты показали хорошее совпадение теоретических и экспериментальных результатов (см. Раздел «Экспериментальная Проверка»). см. текст статьи полностью..
1 2 3 4 5 Категория: Мои файлы \| Добавил: inform-econsciense
Просмотров: 283 \| Загрузок: 2 \| Рейтинг: 0.0/0

Всего комментариев: 0

Вход на сайт

Календарь

Поиск

Друзья сайта
Официальный блог Сообщество uCoz FAQ по системе База знаний uCoz