Robots.txt

robots.txt - общие сведения

Для взаимодействия с поисковыми системами часто применяется файл robots.txt, который вкладывается в корневую папку сайта.

Этот файл служит ТОЛЬКО лишь для запрета индексирования поисковыми машинами различных частей сайта. Помните - только для этого, и ничего больше. Т.е. он никоим образом не может способствовать скорейшему индексированию сайта, а вот неправильное использование этого robots.txt может затруднить индексирование.

Он может содержать всего два типа директив:

 User-Agent: [parameters]

В качестве параметра используется имя робота поисковой машины, к которой относится запрет для индексации страниц и каталогов, указанных в robots.txt. Записей, следующих друг за другом, может быть неограниченное количество (а может и не быть вовсе). Если же необходимо запретить индексирование всем поисковым машинам то необходимо в качестве имени поставить символ звездочки:

 

 User-Agent: *

Следущая директива:

 Dissallow: /относительный_путь 

Накладывает запрет на индексирование поисковой машиной, указанной в User-Agent, определённого каталога.

Так, если мы не хотим, чтобы поисковые машины индексировали содержимое каталога administrator/ то нам необходимо создать в корневой папке сайта файл robots.txt следующего содержания:

 User-Agent: *
 Dissallow: /administrator/

Для полного запрета индексирования, т.е. сайт не индексируется поисковыми машинами вообще (не рекомендуется) нужно написать так:

 User-Agent: *
 Dissallow: /

 

robots.txt в Joomla!

Стандартный robots.txt Joomla содержит следующие строки:

User-agent: * 
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /editor/
Disallow: /help/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /mambots/
Disallow: /media/
Disallow: /modules/
Disallow: /templates/
Disallow: /installation/

Чаще всего этот файл не требуется изменять, кроме нескольких случаев:

  • когда не хотим, чтобы все видели, где у нас находится папка administrator (случай для параноиков и мало что дает). Для этого удаляем строку
Disallow: /administrator/
  • когда хотим, чтобы поисковики индексировали наши картинки. Для этого удаляем строку
Disallow: /images/

После всех проделанных исправлений можно проверить, как поисковики видят файл robots.txt. Для Яндекса это можно проверить, набрав в адресной строке браузера адрес

http://www.yandex.ru/cgi-bin/test-robots?host=www.domen.ru

Для других поисковиков существуют свои способы проверки.

  • Hits: 4253