On-Line Библиотека www.XServer.ru - учебники, книги, статьи, документация, нормативная литература.
       Главная         В избранное         Контакты        Карта сайта   
    Навигация XServer.ru








 

Простые идеи нейронного поиска

Андрей Иванов
руководитель команды разработчиков проекта Neiron.

Пролог


Слова 'нейронный поиск' у большинства людей, как правило, ассоциируются с нейрокомпьютерами, нейроалгоритмами и какими-то высокими технологиями. Причиной тому устоявшаяся связь между словом 'нейронный' и идеями математических моделей, разработанных Тейво Кохоненом и его последователями. Идеи 'нейропоиска', предлагаемые компанией 'Нейрон РУ' ( http://mynameis.narod.ru ), не имеют ничего общего с моделями Кохонена, а суть их ясна и ребенку. Система очень проста, смотрите сами.

Сколько вопросов задают люди?


Русская поисковая система Яndex ежедневно обрабатывает примерно 60 тысяч запросов пользователей. Как вы думаете, все эти запросы - разные? 365 дней в году по 60 тысяч запросов в день, это почти двадцать два миллиона запросов в год. И среди них нет ни одного, который в точности повторился хотя бы один раз? Есть, конечно.

Среди запросов есть такие, которые ежедневно повторяются сотни раз. А есть запросы, встречающиеся, в среднем, пять раз в день, три раза, один раз в неделю и так далее. Иногда запрос выглядит так: 'юПРЮЛНМНБЮ бЮКЕМРХМЮ', но может и вот так: 'Список автомобильных фирм Москвы'. Вы легко можете увидеть, как выглядят запросы, взглянув на страничку 'Прямого Эфира' Яндекса (http://www.yandex.ru/last20.html), она выводит 20 последних запросов в систему. Смотрим: есть формулировка запроса, есть стрелка, предлагающая 'перезадать' запрос системе и есть цифра, показывающая количество ответов системы на данный запрос. Одного нет - частоты, информации о том, как часто люди задают системе этот вопрос.

Что нам дает информация о частоте?


Допустим, кто-то по секрету вам шепнул, что запрос 'фото кленового листа' ежедневно повторяется в среднем 5,2 раза. Сорвать лист, отсканировать его, создать страницу, разместить на бесплатном хосте, спозиционировать в поисковую систему и поставить три платных баннера - все этой займет у вас максимум пару часов. Эффект: 365 х 5,2 = 1998, почти две тысячи показов в год умножим на один доллар за тысячу и на три баннера. Получили $6 в год.

Доведем ситуацию до маленького абсурда. 42 рабочих часа в неделю делим на два часа, потраченных на 'проект' и умножаем на 52 недели в году. Получили 1092 'реализованных проекта', каждый из которых принесет в год по $6. В сумме - $6552, или по пятьсот с лишним баксов в месяц.

Подумаем вместе, а что здесь абсурдного? Пять посетителей в день - это очень невысокая цифра, таких страниц в Сети сотни тысяч. Данные по времени, ценам и срокам исполнения стандартные. Хостинг, действительно, бесплатный. Делай и делай себе 'фото кленового листа', 'фото динозавра', 'фото Владимира Ворошилова', 'список автомобильных фирм Москвы', 'лучшие mp3 сайты', 'покупаем полимеры', 'рефераты по политологии', 'кактус большой цветок', 'аренда нежилых помещений в Москве', 'изображение градусника', 'квартирный трехфазный ввод' и т.п. Все это абсолютно реальные запросы пользователей и они повторяются. В чем проблема?

Нет информации о востребованности ответов на данные запросы, и вы не сможете рассчитать свой бизнес, а вслепую работать глупо - вот и вся проблема. Одним из главных принципов нейронной поисковой системы является полная открытость информации о частотах и формулировках запросов, в ней вы получите эту информацию.

Как отвечать на вопросы?


Зададим Яндексу уже известный вопрос: 'Список автомобильных фирм Москвы'. Первая ссылка на сервер 'Бизнес-Волга' открывается словами 'список автомобильных фирм Тольятти'. Странно: Спросим у Апорта: еще более странно: на первой позиции 'Техмаркетс Компьютерс - компьютеры, периферия, комплектующие'.

Вы поняли вопрос? Да. Можете ответить? Нет, если у вас, конечно, нет этого списка. Поэтому и не отвечаете. А поисковая система запрос не поняла, это очевидно, но 'ответила'. Обсуждение вопроса, почему иногда индексирующая поисковая система (Яндекс, Апорт, АльтаВиста и др.) отвечает абсолютно точно, иногда 'в молоко', а чаще всего - приблизительно, в задачу данной статьи не входит. Нейронная поисковая система всегда отвечает точно, потому что на любой запрос отвечает не 'система', не алгоритм, а живой, реальный человек, который видит запрос, размещая в системе ссылку на веб-страницу с ответом. А что происходит, когда система не знает точного ответа на запрос? Ничего особенного, нет ответа - и все. Иногда лучше не отвечать, чем отвечать невпопад.

Для того, чтобы нейронная система знала, что отвечать на какой-то запрос, ее надо обучить. Общая схема этого процесса такова: первый пользователь вводит новый запрос, ответа на него еще нет; первый эксперт видит незарегистрированный запрос и регистрирует его, т.е. ставит ссылку на страницу, где находится ответ. Второй пользователь вводит точно такой же запрос и получает ответ первого эксперта - ссылку и аннотацию (приглашение посетить страницу). Другие эксперты тоже могут регистрировать данный запрос на свои варианты ответов, но суть в том, что любое количество ответов всегда концентрируется вокруг одного-единственного уникального запроса. Известная первая фраза из песни Фредди Меркюри 'I want to ride my bicycle' НЕ РАВНА второй фразе той же песни того же певца 'I want to ride my bike' - для нейронной системы это два РАЗНЫХ запроса. И система, получив запрос пользователя 'I want to ride my bike' станет искать ответы ТОЛЬКО на этот запрос и ни на какой другой, даже на 'I want to ride my bicycle'. Так надо.

Сказанное называется принципом полной идентификации, и полную теорию этого вопроса я здесь не разбираю.

Сколько же может быть запросов?!


Много. И даже очень много - сотни миллионов на миллионы разных тем. Но ведь, когда вы обращаетесь в поисковую систему, вас же не интересуют все темы одновременно. Интересует одна, и вы формулируете свой запрос, как умеете. Это, кстати, тоже одна из особенностей нейронных поисковиков: у пользователя нет никаких ограничений в выборе формулировки запроса - как понимаешь, что тебе надо, так и пиши.

Но вот в области одной темы количество возможных формулировок запросов резко ограничено и, как правило, не превышает сотни, а наиболее частыми являются от одной до пяти-шести в зависимости от темы. Ограничение это не системное, и не обусловленное какими-то искусственными правилами составления запросов, просто нормальный человек не станет придумывать какую-то слишком необычную формулировку, а количество обычных невелико. Вот что я имел в виду, говоря об 'ограниченности' количества формулировок.

Сколько человек должны отвечать на запросы и зачем?


При слове Эксперт (см. чуть выше) представляется весьма маститая личность, 'весь покрытый зеленью' с изображениями американских президентов, полученной в качестве гонораров за услуги. И сколько же надо таких экспертов и денег на зарплату им, чтобы обучить нейронную систему отвечать на сотни миллионов запросов? Можно подсчитать практически с точностью до одного: количество экспертов нейронной поисковой системы равно количеству вебмастеров, поддерживающих сайты в Интернете. Эксперт, регистрирующий ссылки на страницы сайта - это вебмастер этого сайта. А зачем ему это надо - регистрировать ссылки на свой сайт, писать аннотации, отбирать запросы?..

Встречный вопрос: а зачем ему надо уметь заполнять мета тэги, знать основы позиционирования в индексирующих поисковых системах и регистрировать в них свой сайт, зачем ставить ссылки в каталогах, участвовать в баннерообменных сетях, обменах ссылками, рассылках, форумах? Нормальный мастер все это делает - зачем? Вот вы сами и ответили на вопрос.

Процедура отбора и регистрации запросов в нейронной системе гораздо проще и быстрее, чем техника позиционирования по ключевым словам и заполнение метатэгов в индексирующих поисковых системах.

Что в итоге?


Очень красивая система в итоге получается. Пользователи задают вопросы, а вебмастера (плюс разработчики, авторы, контент-провайдеры, дизайнеры, программисты и др.) на них отвечают. Пользователи спрашивают, что хотят, а профессионалы видят, что нужно пользователям, и руководствуются этими знаниями в своей работе. Все, как в жизни: спрос - предложение. Любой запрос, и практически всегда точный ответ, полный ответ, осмысленный ответ.

Таков завтрашний день поиска в Сети.

Приглашение к диалогу


Более полную информацию об идеях нейронной организации информации, поиска, конкуренции ссылок, разделении баз данных и организации циклов, частотной и коммерческой подсистемах регистрации, противостоянии тенденции лаконизма и 'закона Брэдбери', системе поиска по маске в запросах и аннотациях, принципах рекламы в нейронных системах, универсальности системы для любой зоны Сети, механизмах окупаемости и прибыльности проекта и ряде других вопросов вы можете узнать на сайте фирмы 'Нейрон РУ' (http://mynameis.narod.ru) - пионера в области разработки систем нейронного поиска.

Задавайте свои вопросы, ответы будут.



Литература по Internet