Попов С.В., к.т.н.
Тематический поиск в интернете: назад в будущее
Одной из основных проблем поисковых систем в интернете является неэффективность алгоритмов ранжирования найденных документов. Это во многом обусловлено тем, что в основе современных поисковых машин, работающих в Сети, лежат алгоритмы документального поиска, разработанные ещё в 60-х, 70-х годах прошлого века. В то время документальные информационно-поисковые системы (ИПС) в первую очередь предназначались для поиска научно-технической информации и основными их пользователями были инженеры и учёные. Вот что пишет в связи с этим разработчик системы Яндекс Илья Сегалович: «Но что же поменялось в действительности за последние годы? Не алгоритмы и не структуры данных, не математические модели. Хотя и они тоже. Поменялась парадигма использования систем. Проще говоря, к экрану со строчкой поиска подсели домохозяйка, ищущая утюг подешевле, и выпускник вспомогательного интерната в надежде найти работу автомеханика» [1].
Другими словами, подключение к поиску информации широких масс населения коренным образом повлияло на развитие информационно-поисковых систем (ИПС). Да, основные поисковые алгоритмы остаются прежними. Но, согласитесь, что поиск расписания электропоездов и поиск информации о рентгенолитографии – две разные задачи. К сожалению, задачи тематического научного поиска уходят на периферию интересов разработчиков популярных поисковиков интернета. Илья Сегалович пишет: «Мечты 60-х - 80-х об итеративном уточнении запросов, о понимании естественного языка, о поиске по смыслу, о генерации связного ответа на вопрос с трудом выдерживают сейчас жестокое испытание реальностью»[1].
В то же время небескорыстное желание владельцев известных поисковых машин привлечь как можно больше разнообразных пользователей приводит к новым проблемам. Как сказано в работе [2], все основные технологические проблемы интернета, которые мы сейчас видим и зачастую ощущаем на себе, имеют своей причиной то, что когда эти технологии разрабатывались, никто из разработчиков (по их собственным высказываниям) не представлял себе, что интернет станет глобальной информационной средой.
Особое внимание следует уделить алгоритмам ранжирования выдачи (ранжирование по релевантности).
Словарные ИПС способны выдавать списки документов, содержащие миллионы ссылок. Даже просто просмотреть такие списки невозможно, да и не нужно. Было бы удобно иметь возможность задать формальные критерии (хотя бы относительной) важности документов с тем, чтобы наиболее нужные документы попадали в начало списка. Все разработчики ИПС в настоящее время уделяют основное внимание именно алгоритму ранжирования полученных ссылок.
Наиболее часто используемыми критериями при ранжировании в поисковых машинах интернета являются:
Интересный факт сообщает новостная служба портала «Открытые системы». Как показало исследование, проведенное специалистами Квинслендского технологического университета и университета Пенсильвании с помощью портала метапоиска Dogpile.com, крупнейшие поисковые системы крайне редко выдают идентичный набор верхних строчек результатов при поиске по одним и тем же запросам. Исследователи в общей сложности ввели около 19,3 тыс. запросов к Google, Yahoo, Windows Live Search и Ask.com. Совпадение первого результата во всех системах было выявлено только в 3,6% случаев. Совпадение первых трех не выпало ни разу, даже если не учитывать порядок следования результатов. В среднем менее 1% результатов первой страницы совпадало на всех четырех сайтах. Для сравнения, четыре года тому назад в аналогичном исследовании совпадения первого результата отмечались в 7% случаев[3].
В то же время, по данным компании Forrester Research [4]:
Далее приведены некоторые этапы развития моделей документального поиска:
1. 1957 год. Т. Джойс и Р.М. Нидхэм предложили векторную модель поиска.
2. 1960 год. М.Е. Марон и Дж. Л. Кунс предложили вероятностную модель поиска.
3. 1968 год. Векторная модель реализована Герардом Сэлтоном в поисковой системе SMART (Salton's Magical Automatic Retriever of Text).
4. 1977 год. К.Е. Робертсон и К. Спарк-Джоунз обосновали и реализовали вероятностную модель поиска.
5. 1988 год. Дж. В. Фурнас и С. Дирвестер разработали метод латентно-семантического индексирования.
Опыт моделирования документального поиска, накопленный в прошлом веке, постепенно начинает использоваться при разработке поисковых машин интернета. Среди отечественных интернет-поисковиков, использующих такой опыт, можно отметить системы Галактика-Зум (корпорация Галактика), Артефакт (компания Интегрум-Техно), Nigma (МГУ).
Как уже отмечалось выше, одной из основных проблем поисковых систем является неэффективность алгоритмов ранжирования найденных документов. Это во многом обусловлено тем, что поисковые запросы в среднем состоят всего из двух-трёх слов, т.е. просто не хватает исходной информации для эффективного ранжирования выдачи. В уже упомянутой ИПС SMART проблема, связанная с короткими запросами, была успешно преодолена с помощью так называемой «обратной связи по релевантности». При этом поиск проходит в несколько итераций. На каждом шаге итерации поисковый запрос расширяется за счёт терминов, выделенных пользователем из понравившихся ему среди найденных на этом шаге документов. Заметим, что сам термин «ранжирование по релевантности» появился на фоне реализации обратной связи по релевантности в системе SMART [5].
Попытки реализации обратной связи по релевантности в интернете осуществляются, например, в отечественной поисковой системе WEB ИРБИС, работающей с массивами научной информации (ИНИОН, ГПНТБ).
В заключение хочется отметить, что противоречие между коммерциализацией и качеством поиска ИПС в глобальной компьютерной сети продолжает существовать. Приведу еще одно сообщение с портала «Открытые системы».
«В компании Yahoo надеются, что с переходом на новую поисковую технологию ей удастся восстановить позиции на рынке, где сейчас преобладает Google. В числе улучшений – упрощенный пользовательский интерфейс с меньшим количеством баннеров, функция поиска изображений и модификация настроек: выбор одного из 30 поддерживаемых языков, поиск с учетом домена, страны и времени создания документов. Служба расположена по новому адресу: http://new.search.yahoo.com. Поисковая система основана на усовершенствованном варианте технологии компании Inktomi, приобретенной Yahoo. Кроме того, система частично полагается на технологии Google. Привлечь внимание к порталу в Yahoo рассчитывают за счет совершенствования его служб, в числе которых – спортивные результаты, желтые страницы, поиск по Internet-магазинам, знакомства, биржа труда и т.д» [6].
Литература
1. Сегалович И.В. Как работают поисковые системы // Мир Internet. 2002. № 10. С. 24-32.
2. Тактаев С. Поиск информации в компьютерных сетях: новые подходы. http://www.searchengines.ru/articles/004603.html
3. http://www.osp.ru/news/2007/0618/4233621/
4. http://promo.by/
5. Сэлтон Г. Автоматизированная обработка, хранение и поиск информации. М.: Советское радио, 1973.
6. http://www.osp.ru/news/2003/0410/611142
*Исследование выполнено при поддержке РГНФ (проект 08-02-00064а).
Попов С.В. Тематический поиск в интернете: назад в будущее./ Информационное общество, 2009, вып. 6, с. 54-56.