Персональный сайт Сергея Попова

Статистика
Онлайн всего: 1 Гостей: 1 Пользователей: 0

Закономерность распределения документов по классам близости к бинарным векторам терминов поисковых запрос

Закономерность распределения документов по классам близости к бинарным векторам терминов поисковых запросов в политематических массивах коротких документов

С.В. Попов, кандидат технических наук, заведующий сектором статистики науки ГУ РИЭПП

©С.В. Попов, 2002, 2007

Опубликовано: Попов С.В. Закономерность распределения документов по классам близости к бинарным векторам терминов поисковых запросов в политематических массивах коротких документов // Альманах «Наука. Инновации. Образование». Вып. 2 ./ РИЭПП. М.: Изд-во «Языки славянской культуры», 2007, с. 96—104.

Автор благодарит зав. кафедрой «Системного анализа» МИФИ В.П. Румянцева за конструктивные замечания, профессоров Максимова Н.В. и Попова И.И. за тщательное обсуждение основной гипотезы, использованного метода и выводов, к.т.н. Б.В. Пулькина за детализацию математических выкладок и к.э.н. Соловьеву Г.М. за помощь на всех этапах выполнения работы.

Одно из важных открытий в области библиометрии и наукометрии было сделано С. Бредфордом, сформулировавшим закон рассеяния статей по одной тематике в системе периодических изданий [1]. Можно сказать, что эта закономерность характеризует нарастание затрат (количество просматриваемых статей) при попытке найти всю информацию по заданной тематике, начиная поиск с наиболее профильных периодических изданий и переходя к менее профильным.

Настоящее исследование направлено на определение таких затрат при работе с ранжирующими информационно-поисковыми системами (ИПС) с бинарной метрикой ( о таких системах можно прочитать, например, в работах [2] и [3] ), в которых в качестве документов исходного поискового массива используются короткие тексты (рефераты, новостные сообщения и т.д.) и/или части больших текстов (например, абзацы статей или книг). В таких ИПС документы исходного массива делятся на классы в зависимости от того, сколько терминов из вектора поискового запроса содержится в каждом из документов. В качестве составляющих вектора запроса и документа выступают ключевые слова, индексы классификаций, дескрипторы, фразы или просто слова естественного языка. При использовании бинарной метрики терминам запроса не приписываются веса значимости и каждому из них соответствуют два возможных состояния: либо он содержится в данном документе либо нет [2. Стр. 143].

Утверждается, что не зависимо от языка, на котором написаны документы (при условии, что вектор запроса состоит из терминов того же языка), для политематических массивов размеры классов (количество документов в классе) подчиняются следующей закономерности не зависимо от тематики поискового запроса... Естественным условием проявления закономерности является то, что термины вектора запроса выбираются не случайно и отражают лексику исследуемой тематической области. Исключается использование в векторе запроса предлогов, союзов, частиц , но допускается использование терминов, присущих не только исследуемой, но и другим тематическим областям. Окончательное определение условий проявления закономерности требует продолжительных экспериментов, но уже первые опыты показали хорошее совпадение теоретических и экспериментальных результатов (см. Раздел «Экспериментальная Проверка»).

см. текст статьи полностью...S.V.Popov._Zakonomernost_raspredeleniya_dokumentov_po_klassam_blizosti.mht

а также в Альманахе здесь

Вход на сайт

Календарь

Поиск

Архив записей
2009 Ноябрь 2010 Март 2010 Декабрь 2011 Октябрь 2013 Октябрь 2014 Ноябрь 2016 Ноябрь 2016 Декабрь 2017 Март 2017 Апрель 2017 Май 2017 Июль 2017 Август 2017 Сентябрь 2017 Октябрь 2017 Ноябрь 2017 Декабрь 2018 Январь 2018 Февраль 2018 Июль 2019 Январь 2020 Декабрь

Друзья сайта
Официальный блог Сообщество uCoz FAQ по системе База знаний uCoz

Персональный сайт Сергея Попова

Статистика

Закономерность распределения документов по классам близости к бинарным векторам терминов поисковых запрос

Вход на сайт

Календарь

Поиск

Архив записей

Друзья сайта