Персональный сайт Сергея Попова

Категории раздела

Мои файлы [2]

Статистика


Онлайн всего: 1
Гостей: 1
Пользователей: 0

Каталог файлов

Главная » Файлы » Мои файлы

Закономерность распределения документов по классам близости к бинарным векторам терминов поисковых запросов в политематических массивах
[ Скачать с сервера (87.8 Kb) ] 08.03.2017, 21:53

Закономерность распределения документов по классам близости к бинарным векторам терминов поисковых запросов в политематических массивах коротких документов

 

©С.В. Попов, 2002, 2007

Опубликовано: Попов С.В. Закономерность распределения документов по классам близости к бинарным векторам терминов поисковых запросов в политематических массивах коротких документов // Альманах «Наука. Инновации. Образование». Вып. 2 ./ РИЭПП. М.: Изд-во «Языки славянской культуры», 2007, с. 96—104.

Автор благодарит зав. кафедрой «Системного анализа» МИФИ В.П. Румянцева за конструктивные замечания, профессоров Максимова Н.В. и Попова И.И. за тщательное обсуждение основной гипотезы, использованного метода и выводов, к.т.н. Б.В. Пулькина за детализацию математических выкладок и к.э.н. Соловьеву Г.М. за помощь на всех этапах выполнения работы.

Одно из важных открытий в области библиометрии и наукометрии было сделано С. Бредфордом, сформулировавшим закон рассеяния статей по одной тематике в системе периодических изданий [1]. Можно сказать, что эта закономерность характеризует нарастание затрат (количество просматриваемых статей) при попытке найти всю информацию по заданной тематике, начиная поиск с наиболее профильных периодических изданий и переходя к менее профильным.

Настоящее исследование направлено на определение таких затрат при работе с ранжирующими информационно-поисковыми системами (ИПС) с бинарной метрикой ( о таких системах можно прочитать, например, в работах [2] и [3] ), в которых в качестве документов исходного поискового массива используются короткие тексты (рефераты, новостные сообщения и т.д.) и/или части больших текстов (например, абзацы статей или книг). В таких ИПС документы исходного массива делятся на классы в зависимости от того, сколько терминов из вектора поискового запроса содержится в каждом из документов. В качестве составляющих вектора запроса и документа выступают ключевые слова, индексы классификаций, дескрипторы, фразы или просто слова естественного языка. При использовании бинарной метрики терминам запроса не приписываются веса значимости и каждому из них соответствуют два возможных состояния: либо он содержится в данном документе либо нет [2. Стр. 143].

Утверждается, что не зависимо от языка, на котором написаны документы (при условии, что вектор запроса состоит из терминов того же языка), для политематических массивов размеры классов (количество документов в классе) подчиняются следующей закономерности не зависимо от тематики поискового запроса... Естественным условием проявления закономерности является то, что термины вектора запроса выбираются не случайно и отражают лексику исследуемой тематической области. Исключается использование в векторе запроса предлогов, союзов, частиц , но допускается использование терминов, присущих не только исследуемой, но и другим тематическим областям. Окончательное определение условий проявления закономерности требует продолжительных экспериментов, но уже первые опыты показали хорошее совпадение теоретических и экспериментальных результатов (см. Раздел «Экспериментальная Проверка»).

см. текст статьи полностью..

 

Категория: Мои файлы | Добавил: inform-econsciense
Просмотров: 283 | Загрузок: 2 | Рейтинг: 0.0/0
Всего комментариев: 0

Вход на сайт


Календарь

Поиск

Друзья сайта

  • Официальный блог
  • Сообщество uCoz
  • FAQ по системе
  • База знаний uCoz