Учим поисковые системы индексировать сайт

Сайт вылетел из индекса? Размещение ссылок навсегда. Победим АГС вместе.

robots

Доброго времени суток.
СЕО оптимизация проектов штука довольно таки сложная, но в тоже время интересная. Есть тут конечно и высокие материи, есть и простые вещи. Сегодня я хотел бы поговорить о том, что может показаться незначительным, но на деле вносит существенный вклад в СЕО. Итак, сегодня я расскажу как мы можем влиять на процесс индексации нашего сайта поисковыми роботами. Для этих целей служит файл robots.txt. В Интернете можно найти массу информации о том, что должно содержаться в этом файле, какой должен быть синтаксис записей и т.д. Я попробую собрать все эти сведения в одном небольшом посте. И указать явные ошибки, которые встречаются при создании этого файла.

Файл robots.txt представляет собой обычный текстовый файл, создать который можно в любом текстовом редакторе (даже в блокноте Windows). Данный файл располагается в корневом каталоге сайта, и содержит набор директив, сообщающих поисковым роботам определенные сведения.  Нет смысла  создавать несколько файлов robots.txt в разных директориях сайта. Поисковые машины все равно не будет их искать нигде кроме корневого каталога. Т.е. Ваш файл должен быть доступен по адресу: http://mysite.ru/robots.txt.

Главное правило, которое нужно усвоить, в файле robots.txt принято использовать только две директивы это: User-agent и Disallow. Можно найти упоминание и про такие директивы как Allow (разрешить), Crawl-delay (задержка между загрузками страниц), Request-rate (загружать определенное количество страниц в секунду), Visit-time (индексировать сайт только в определенное время). Но эти директивы считаются нестандартными или относятся к расширенному стандарту. И в основной своей массе не применяются на практике.

Директивы в файле robots.txt имеют следующий вид:

<поле>:<пробел><значение><пробел>
<поле>:<пробел><значение><пробел>

Имя файла должно состоять только из строчных букв. Названия директив также не стоит полностью преобразовывать в заглавные буквы. Директивы должны быть написаны так, как показано в примерах ниже.

В самом простом варианте файл robots.txt должен содержать следующий код:

#Данный код полностью разрешает всем поисковым системам индексировать сайт (т.к. не запрещает ничего)
User-agent: *
Disallow:

#Данный код полностью запрещает всем поисковым системам индексировать сайт
User-agent: *
Disallow: /

#Данный код полностью запрещает всем поисковым системам индексировать содержимое каталога /docs/ т.е. содержимое, которое располагается по пути http://mysite.ru/docs/
User-agent: *
Disallow: /docs/

#Данный код полностью запрещает всем поисковым системам индексировать как содержимое каталога /docs, так и например файл http://mysite.ru/docs.html
User-agent: *
Disallow: /docs/

#Данный код запрещает всем поисковым системам индексировать содержимое трех каталогов
User-agent: *
Disallow: /docs/
Disallow: /tmp/
Disallow: /codes/

Нужно отметить, что каждая директива должна располагаться отдельной строкой. Не допускается расположение нескольких директив в одной строке, или нескольких параметров у директивы.

#Пример НЕПРАВИЛЬНОГО содержимого файла robots.txt
User-agent: *
Disallow: /docs/ /tmp/ /codes/

#Также стоит отдельно отметить директиву Hosts, которая указывает Яндексу на основное зеркало Вашего сайта.
User-agent: Yandex
Host: site.ru

#Данный код запрещает поисковому боту Google индексировать сайт, а поисковому боту Яндекса индексировать каталог docs и файл test.html
User-agent: Googlebot
Disallow: /
User-agent: Yandex
Disallow: /docs/
Disallow: test.html

Вот небольшой список поисковых систем и их ботов:

  • http://www.google.com:  Googlebot;
  • http://www.yahoo.com: Slurp или Yahoo! Slurp;
  • http://www.aol.com: Slurp;
  • http://www.msn.com, http://www.live.com: MSNBot;
  • http://www.ya.ru: Yandex;
  • http://www.altavista.com: Scooter;
  • http://www.alexa.com: ia_archiver;
  • http://www.rambler.ru: StackRambler;
  • http://mail.ru: Mail.Ru;
  • http://www.aport.ru: Aport;
  • http://www.webalta.ru     WebAlta или WebAlta Crawler/2.0;

Также стоит помнить, что у ведущих поисковых систем есть дополнительные боты для отдельных задач. Вот некоторые из таких ботов:

  • Googlebot-Image — бот, который сканирует страницы и индексирует картинки;
  • Googlebot-Mobile — бот, который включает страницы в индекс для мобильных устройств;

Вы сможете найти довольно большой список ботов по ссылке.
В заключении хотелось бы сказать, что не стоит пренебрегать созданием файла robots.txt для своего сайта или блога. Грамотно составленный robots.txt обеспечит правильное индексирование Вашего сайта, и как следствие лучшее его позиционирование в поисковых системах.

If you enjoyed this post, make sure you subscribe to my RSS feed!

Похожие статьи:

Оставить комментарий

Spam Protection by WP-SpamFree

Подписаться
Следовать за мной на ТвиттереПодписаться на RSS обновления
Подписаться через RSS2Email

SibNext.RU



Реклама




changemoney.me

Пузомерки