Персональный сайт Сергея Попова

Статистика


Онлайн всего: 1
Гостей: 1
Пользователей: 0

Закономерность распределения документов по классам близости к бинарным векторам терминов поисковых запрос

Закономерность распределения документов по классам близости к бинарным векторам терминов поисковых запросов в  политематических массивах коротких документов

        

С.В. Попов, кандидат технических наук, заведующий сектором статистики науки ГУ РИЭПП

©С.В. Попов, 2002, 2007

Опубликовано:  Попов С.В. Закономерность распределения документов по классам близости к бинарным векторам терминов поисковых запросов в политематических массивах коротких документов // Альманах «Наука. Инновации. Образование». Вып. 2 ./ РИЭПП. М.: Изд-во «Языки славянской культуры», 2007, с. 96—104.

Автор благодарит зав. кафедрой «Системного анализа» МИФИ В.П. Румянцева за конструктивные замечания,  профессоров Максимова Н.В. и Попова И.И. за тщательное обсуждение основной гипотезы, использованного метода и выводов, к.т.н. Б.В. Пулькина за детализацию математических выкладок и к.э.н. Соловьеву Г.М. за помощь на всех этапах выполнения работы.

Одно из важных открытий в области библиометрии и наукометрии было сделано С. Бредфордом, сформулировавшим закон рассеяния статей по одной тематике в системе периодических изданий [1]. Можно сказать, что эта закономерность характеризует нарастание затрат (количество просматриваемых статей) при попытке найти всю информацию по заданной тематике, начиная поиск с наиболее профильных периодических изданий и переходя к менее профильным.

Настоящее исследование направлено на определение таких затрат при работе с ранжирующими  информационно-поисковыми  системами (ИПС) с бинарной метрикой ( о таких системах можно прочитать, например, в работах [2] и [3] ), в которых в качестве документов исходного поискового массива используются короткие тексты (рефераты, новостные сообщения и т.д.) и/или части больших текстов (например, абзацы статей или книг).  В таких ИПС  документы исходного массива делятся на классы в зависимости от того, сколько терминов из вектора поискового запроса содержится в каждом из  документов. В качестве  составляющих вектора запроса и документа выступают ключевые слова, индексы классификаций, дескрипторы, фразы или просто слова естественного языка. При использовании бинарной метрики терминам  запроса не приписываются веса значимости и каждому из них соответствуют два возможных состояния: либо он содержится в данном документе либо нет [2. Стр. 143].

    Утверждается, что не зависимо от языка, на котором написаны  документы (при условии, что вектор запроса   состоит из терминов того же языка), для   политематических  массивов  размеры классов (количество документов в классе) подчиняются следующей закономерности не зависимо от тематики поискового запроса... Естественным условием проявления закономерности является  то, что термины вектора запроса выбираются не случайно и отражают лексику исследуемой тематической области. Исключается использование в векторе запроса предлогов, союзов, частиц , но допускается использование терминов, присущих  не только исследуемой, но и другим тематическим областям. Окончательное определение условий  проявления закономерности требует продолжительных экспериментов, но уже первые опыты показали хорошее совпадение теоретических и экспериментальных результатов (см. Раздел «Экспериментальная Проверка»).

см. текст статьи полностью...S.V.Popov._Zakonomernost_raspredeleniya_dokumentov_po_klassam_blizosti.mht 

а также в Альманахе здесь 

 

Вход на сайт


Календарь

«  Ноябрь 2024  »
ПнВтСрЧтПтСбВс
    123
45678910
11121314151617
18192021222324
252627282930

Поиск


Архив записей

Друзья сайта

  • Официальный блог
  • Сообщество uCoz
  • FAQ по системе
  • База знаний uCoz