Учим поисковые системы индексировать сайт
Сайт вылетел из индекса?
Доброго времени суток.
СЕО оптимизация проектов штука довольно таки сложная, но в тоже время интересная. Есть тут конечно и высокие материи, есть и простые вещи. Сегодня я хотел бы поговорить о том, что может показаться незначительным, но на деле вносит существенный вклад в СЕО. Итак, сегодня я расскажу как мы можем влиять на процесс индексации нашего сайта поисковыми роботами. Для этих целей служит файл robots.txt. В Интернете можно найти массу информации о том, что должно содержаться в этом файле, какой должен быть синтаксис записей и т.д. Я попробую собрать все эти сведения в одном небольшом посте. И указать явные ошибки, которые встречаются при создании этого файла.
Файл robots.txt представляет собой обычный текстовый файл, создать который можно в любом текстовом редакторе (даже в блокноте Windows). Данный файл располагается в корневом каталоге сайта, и содержит набор директив, сообщающих поисковым роботам определенные сведения. Нет смысла создавать несколько файлов robots.txt в разных директориях сайта. Поисковые машины все равно не будет их искать нигде кроме корневого каталога. Т.е. Ваш файл должен быть доступен по адресу: http://mysite.ru/robots.txt.
Главное правило, которое нужно усвоить, в файле robots.txt принято использовать только две директивы это: User-agent и Disallow. Можно найти упоминание и про такие директивы как Allow (разрешить), Crawl-delay (задержка между загрузками страниц), Request-rate (загружать определенное количество страниц в секунду), Visit-time (индексировать сайт только в определенное время). Но эти директивы считаются нестандартными или относятся к расширенному стандарту. И в основной своей массе не применяются на практике.
Директивы в файле robots.txt имеют следующий вид:
<поле>:<пробел><значение><пробел>
Имя файла должно состоять только из строчных букв. Названия директив также не стоит полностью преобразовывать в заглавные буквы. Директивы должны быть написаны так, как показано в примерах ниже.
В самом простом варианте файл robots.txt должен содержать следующий код:
User-agent: *
Disallow:
User-agent: *
Disallow: /
User-agent: *
Disallow: /docs/
User-agent: *
Disallow: /docs/
User-agent: *
Disallow: /docs/
Disallow: /tmp/
Disallow: /codes/
Нужно отметить, что каждая директива должна располагаться отдельной строкой. Не допускается расположение нескольких директив в одной строке, или нескольких параметров у директивы.
User-agent: *
Disallow: /docs/ /tmp/ /codes/
User-agent: Yandex
Host: site.ru
User-agent: Googlebot
Disallow: /
User-agent: Yandex
Disallow: /docs/
Disallow: test.html
Вот небольшой список поисковых систем и их ботов:
- http://www.google.com: Googlebot;
- http://www.yahoo.com: Slurp или Yahoo! Slurp;
- http://www.aol.com: Slurp;
- http://www.msn.com, http://www.live.com: MSNBot;
- http://www.ya.ru: Yandex;
- http://www.altavista.com: Scooter;
- http://www.alexa.com: ia_archiver;
- http://www.rambler.ru: StackRambler;
- http://mail.ru: Mail.Ru;
- http://www.aport.ru: Aport;
- http://www.webalta.ru WebAlta или WebAlta Crawler/2.0;
Также стоит помнить, что у ведущих поисковых систем есть дополнительные боты для отдельных задач. Вот некоторые из таких ботов:
- Googlebot-Image — бот, который сканирует страницы и индексирует картинки;
- Googlebot-Mobile — бот, который включает страницы в индекс для мобильных устройств;
Вы сможете найти довольно большой
В заключении хотелось бы сказать, что не стоит пренебрегать созданием файла robots.txt для своего сайта или блога. Грамотно составленный robots.txt обеспечит правильное индексирование Вашего сайта, и как следствие лучшее его позиционирование в поисковых системах.