On-Line Библиотека www.XServer.ru - учебники, книги, статьи, документация, нормативная литература.
       Главная         В избранное         Контакты        Карта сайта   
    Навигация XServer.ru








 

Несколько слов о файле robots.txt

Александр Довженко

Robots.txt - это первый  файл, к которому при индексации сайта обращаются поисковые системы. В нем описываются права доступа для поисковых роботов, при чем можно указать разные права для разных роботов. То есть вы можете запретить или разрешить роботу индексировать тот или иной каталог. Файл robots.txt должен присутствовать на всех сайтах! 

Для этого файла существует общепринятый стандарт под названием Standart for Robot Exclusion. 
Каждая запись начинается со строки User-Agent, в которой описывается каким или какому поисковому роботу эта запись предназначается. Следующая строка: Disallow. Здесь описываются не подлежащие индексации пути и файлы. КАЖДАЯ запись ДОЛЖНА иметь как минимум эти две строки (lines). Все остальные строки являются опциями. Запись может содержать любое количество строк комментариев. Каждая строка комментария должна начинаться с символа # . Строки комментариев могут быть помещены в конец строк User-Agent и Disallow. Символ # в конце этих строк иногда добавляется для того, чтобы указать поисковому роботу, что длинная строка agent_id или path_root закончена. Если в строке User-Agent указано несколько agent_id, то условие path_root в строке Disallow будет выполнено для всех одинаково. Ограничений на длину строк User-Agent и Disallow нет. Если поисковый робот не обнаружил в файле /robots.txt своего agent_id, то он игнорирует /robots.txt.

Если не учитывать специфику работы каждого поискового робота, можно указать исключения для всех роботов сразу. Это достигается заданием строки

               User-Agent: *


Если поисковый робот обнаружит в файле /robots.txt несколько записей с удовлетворяющим его значением agent_id, то робот волен выбирать любую из них.

Пример 1:

lang=EN-US style="mso-bidi-font-size: 12.0pt; mso-ansi-language: EN-US">User-Agent: * 

# robots.txt fot http://cvcdesign.diaspora.ru

Disallow: /cgi-bin/ /img/ /zip/

В примере 1 всем роботам запрещается индексировать каталоги img, zip, cgi-bin

Пример 2

User-Agent: *

Disallow: /

User-Agent: Lycos

Disallow: /cgi-bin/ /tmp/

В примере 2 всем роботам запрещается индексировать сайт. Но роботу Lycos разрешается индексировать все каталоги, кроме cgi-bin, tmp/

Как я уже говорил файл robots.txt должен присутствовать на всех сайтах. Он используется большинством поисковых систем.



Языки программирования: разное