Около полутора лет тому назад американский исследователь Николас Негропонте
из MIT рассуждал на страницах высоколобого калифорнийского ежемесячника Wired о
том, каким образом компьютеризованное человечество сумеет справиться с избытком
информации, льющейся из Интернета. Кто и как будет отбирать для нас стоящие
материалы? - спрашивал Негропонте. - Ведь количество документов в Паутине (WWW)
стремится к десяти миллионам, и никакой жизни человеческой не хватит, чтобы все
их просмотреть...
Негропонте предполагал, что селекцией "стоящих" страниц будут
заниматься персонализованные программы-агенты, которые сперва изучат нравы и
пристрастия собственных владельцев, а потом станут в непрерывном режиме рыть
Интернет в поисках материалов по темам, интересующим хозяина. Агенты, по
предсказанию Негропонте, будут наделены достаточным (хоть и искусственным)
интеллектом, чтобы не просто выуживать из сети все документы, содержащие
определенный набор ключевых слов, но и оценивать эти документы по новизне,
содержательности, информативности...
Вполне возможно, что когда-нибудь в том далеком и счастливом кибернетическом
завтра, куда устремлен провидческий взгляд Негропонте, так оно и будет. Но
сегодня, при Паутине, перешагнувшей уже отметку в 70 миллионов адресов,
интеллигентных программ-агентов на горизонте не то чтобы слишком видно. Вместо
них поиском интересных нам ресурсов занимаемся мы сами, когда путешествуем по
Сети. А помощь в этом вопросе оказывают нам поисковые машины и каталоги - такие,
как Lycos, AltaVista, Infoseek, Excite, Hotbot, Webcrawler и Yahoo (общим числом
сегодня около 200). Все они устроены по сходному принципу: копии всех
документов, известных этим серверам, хранятся на локальном диске в формате
индексированного файла. Когда мы просим АльтаВисту или Ликос поискать нам
документы, содержащие слово, скажем, hypertext, то поиск ведется в базе местной
машины, а в ответ на наш запрос выдается несколько десятков тысяч адресов во
всех концах Паутины.
Поэтому главная задача для автора гипертекстового документа, если он хочет
донести свое послание до читающей публики - "отметиться" наиболее
удачным способом во всех каталогах, куда захаживает потенциальный читатель в
поисках информации по интересующей его теме.
Для этой цели в набор команд языка HTML включена специальная группа
инструкций META, предназначенных в основном для описания и индексирования
документа поисковыми машинами.
Команды META вносятся в "шапку" гипертекстового документа - внутри
блока <HEAD>...</HEAD>. Наибольшее практическое значение имеют два
типа META - description (описание) и keywords (ключевые слова).
Синтаксис этих команд весьма прост и стандартен.
<META NAME="description" CONTENT="Эта страница посвящена
проблемам индексирования гипертекстовых документов WWW с помощью инструкций
МЕТА".>
<META NAME="keywords" CONTENT="META, HTML, WWW, Web,
паутина, поиск, определение, рекомендации, примеры использования, учебник,
руководство, информация, справка, Netscape, Microsoft Internet
Explorer">
Многие роботы, индексирующие документы HTML, пользуются описанием, которые
они находят у вас в инструкции "description", при выводе информации о
вашей странице в результатах поиска. Если этой инструкции в документе не
окажется, то поисковая машина вернет информацию о вашем сайте в виде 256 или 512
первых символов найденной страницы - разумеется, за вычетом команд HTML.
Возможность контролировать, какую информацию о вашей странице получит
пользователь, нашедший ее по ключевому слову в поисковой машине, позволяет вам
повысить свои шансы на привлечение посетителей, интересующихся именно вашей
темой. Большинство HTML документов составлено так, что в начале у них стоят
однотипные приветственные фразы или советы по навигации сервера ("Вы можете
нажать кнопку Back вашей гляделки, чтобы вернуться на одну страницу
назад..."), а вовсе не конспект последующего материала. Если пользователь
сделал поиск, скажем, на слово "гипертекст", то среди десятков тысяч
документов, адреса которых вернула ему машина, в доброй половине текстов это
слово встречается случайно, походя, между делом, при объяснении совершенно
других тем и вопросов. Наличие МЕТА-описания позволяет пользователю поисковой
машины при беглом взгляде на список убедиться, что ваша страница посвящена
именно интересующей его проблематике.
Ключевые слова позволяют повысить "релевантность" поиска. Из ста
тысяч страниц, содержащих слово "гипертекст", от силы в тысяче мы
найдем его определение. Но и там, где оно содержится, само по себе слово
"определение" будет совершенно необязательно присутствовать. Например,
фраза "Гипертекст - это способ организации текстовой информации" не
включает в свой состав слова "определение", хоть и является таковым.
Если мы хотим, чтобы всякий пользователь, желающий получить определение
гипертекста, попадал именно на нашу страницу, то мы включим слово
"определение" в набор ключевых слов, в соответствующей команде МЕТА.
Читатель волен сам додумать примеры грамотного использования ключевых слов.
Нам остается лишь отметить, что помимо прямого и разумного использования
инструкций META поисковые роботы открыты для самого широкого злоупотребления.
Постоянные обитатели Сети более или менее представляют себе, какие темы
пользуются наибольшей популярностью у их виртуальных собратьев - и могут
вставлять ключевые слова по этим козырным темам в любой документ,
безотносительно к его действительному содержанию. Классическим примером является
компания по развозке школьных завтраков, которая в соответствующую МЕТА
инструкцию на своей домашней странице включила больше непристойных слов,
эротических и порнографических намеков, чем все секс-шопы Атлантического
побережья вместе взятые. МЕТА инструкция сайта школьных завтраков выглядела
примерно так (в моем несколько смягченном переводе):
<META NAME="keywords" CONTENT="голые женщины, порно, груди,
попа, жопа, ягодицы, секс, оральный, анальный, картинки, обнаженные,
непристойные, горячие, мокрые, ебля, групповуха, минет, клитор, влагалище, член,
соски, сосать, трах, оргазм, экстаз, девки, бляди, кейтеринг, школьные
завтраки">
Таким образом, помимо редких интернетовских пользователей, действительно
озабоченных детским кейтерингом, страница школьных завтраков привлекала
ежемесячно десятки тысяч посетителей, жаждущих совершенно иной пищи. Насколько
эффективна была такая стратегия в данном конкретном случае - гадать не
возьмемся, однако если речь идет о странице, на которой размещена сетевая
реклама, и владелец заинтересован в простом арифметическом столпотворении
визитеров, использование подобных трюков обретает прямой коммерческий смысл.
В начале нынешнего года операторы некоторых поисковых машин объявили с
большой помпой, что они не допустят подобных манипуляций. Например, робот Excite
начисто игнорирует любой текст, включенный в инструкцию МЕТА, и индексирует лишь
те слова, которые находятся в корпусе документа. Будто бы таким способом можно
защититься от выдумок, на которые хитра вебмастерская общественность.
Разумеется, инициатива Excite лишь подстегнула изобретательский азарт
сочинителей документов Паутины, которые предложили сразу два способа обмануть
этот робот. Первый патент состоит во включении в документ комментариев - блоков
текста, невидимых для посетителя страницы. Специально для робота Excite эти
комментарии содержат все те ключевые слова, которые он проигнорировал в составе
МЕТА инструкции. Другой патент состоит в приписывании к документу больших блоков
невидимого текста - написанного, скажем белыми буквами по белому фону, при
минимальном размере шрифта. Таким способом роботу, не признающему МЕТА, можно
скормить любое количество информации...
Помимо двух рассмотренных в нашей заметке видов инструкций МЕТА - description
и keywords - эта команда имеет несколько других важных применений, достойных
отдельного рассмотрения. Назовем их здесь вкратце:
* Специализированные МЕТА инструкции для систем, которые настроены на их
отслеживание. Например, МЕТА может использоваться для включения в текст страницы
кодов RSAC - рейтинга данного документа по классификации Консультативного совета
развлекательных программ (http://www.rsac.org/). Рейтинг RSAC учитывает
такие параметры, как секс, насилие и ненормативная лексика в тексте документов
Паутины.
* Поскольку инструкции МЕТА находятся в "шапке" документа, они
могут использоваться при настройке параметров программы-гляделки для
оптимального показа данного документа пользователю. В частности, МЕТА может
содержать информацию о кодировке документа:
<META HTTP-EQUIV="Content-type" CONTENT="text/html;
charset=KOI8-R">
Эта инструкция означает, что документ написан на русском языке, в кодировке
КОИ8. Предполагается, что Нетскейп и другие гляделки используют эту информацию
для автоматического переключения доступных кодировок.
* МЕТА может использоваться для создания динамических документов, содержимое
которых освежается через заданный промежуток времени (в секундах):
<META HTTP-EQUIV="Refresh" CONTENT="12;
URL=http://zhurnal.rinet.ru/">
Включение этой инструкции в "шапку" приведет к тому, что через 12
секунд после загрузки текущего документа гляделка вызовет страницу, адрес
которой указан как значение URL. Если значением URL является не документ HTML,
а, скажем, звуковой файл, то он будет исполнен в указанный срок. В обоих
случаях, эта техника носит название Client Pull, поскольку инструкция о
затребовании нового документа через команду Refresh передается клиенту HTTP и им
исполняется.
Литература по Internet
|