Файл Robots.txt для индексирования сайта в Яндексе

Robots.txt

Для того чтобы понять как происходит индексация сайтов в поисковиках, нужно уяснить несколько моментов. Robots.txt – файл с настройками, который содержит в себе руководство для поисковых роботов. При помощи данного файла мы запрещаем или разрешаем проведение индексации указанных страничек и разделов вашего web-сайта. Также с помощью данного руководства можно показать главное зеркало портала или указать путь расположения «sitemap». Полезность файла с настройками можно понять после того, как вы произведете наладку и опишите правила, которые будут вводить запрет на индексацию технических разделов вашего портала. Важно закрыть ненужные для просмотра страницы, иначе поисковик посчитает их мусором и постарается исключить из поиска. Но вместе с тем возможно под фильтр попадет и нужная информация, которая предназначена для публикации.

Как создать файл с настройками Robots.txt? Чтобы индексирование сайта в яндексе проходило успешным образом, требуется открыть файл при помощи блокнота. Далее поместив его в корень вашего портала, опишем правила, по которым будет работать бот, посетивший ваш сайт. Но для того, чтобы он смог правильно прочитать настройки, их нужно прописать должным образом, иначе индексирование сайта в яндексе будет невозможным. По традиции курса по seo продвижению для начала смотрим обучающее видео:


Смотрите полный видеокурс на iTunes

Наладка Robots.txt. Для создания правила используют две команды: User-agent и Disallow. Первая будет описывать, какое действие нужно предпринять боту для индексирования, написанное в другой директиве. Для примера создается команда: User-agent:* Disallow:/ – эта строка введет запрет на индексацию всего сайта. Таким образом, прописывая команду «Disallow» вы даете указание боту, чтобы тот прекратил регистрацию объекта на вашем портале по конкретному линку. Но важно помнить о том, что запрещается использовать несколько команд в одной строке, иначе они не будут работать. Если же вы хотите открыть файл или ссылку для индексирования, то воспользуйтесь фразой «Allow».

По аналогии существуют и другие команды, которые можно указывать в настройках Robots.txt:

«Sitemap» – представляет путь к лежащему, в корне вашего каталога, файлу, описывающий карту сайта. Возможно, вам пригодятся разные генераторы для создания xml файла sitemap под любые сайты — была когда-то об этом полезная статья.

Директива «Host» указывает на единую и основную ссылку для вашего портала. Именно этот путь будет выдаваться при поисковом запросе. Она больше указывается для Яндекса, поэтому размещается в той части файла Robots.txt, которая касается именно этого поисковика.

«Request-rate» задает временные рамки между тем, как будет происходить загрузка страниц с сайта роботами-поисковиками. Для примера, написав команду: «Request-rate: 1/20» вы укажите боту, что загружать страницу требуется раз в двадцать секунд.

Правило «Visit-time» указывает на точное время, в которое боту разрешено проводить индексацию сайта. Время указывается по Гринвичу по такому принципу: «Visit-time: 0700-0800».

«Crawl-delay» прописывается для того, чтобы указать временную паузу между запросами страниц, которые загружаются роботами-поисковиками. Это полезно применять тогда, когда на сайте имеется множество страниц. К примеру, команда: «Crawl-delay: 15» делает паузу между запросами страничек, в интервале 15 секунд.

Что будет, если ошибиться в настройке Robots.txt? Ошибочная наладка приведет к тому, что индексирование сайта в яндексе будет не правильным. То есть закрытые страницы, к примеру, с приватной информацией, станут доступными для просмотра, а нужный контент окажется не учтённым.

Robots.txt

Как проверить правильность наладки? Яндекс.Вебмастер – одна из популярных программ, которая позволяет производить контроль за Robots.txt (см. рисунок выше). Впишем в программу имя домена, и на экране вам будет показаны возможные ошибки, которые допущены в ходе настройки. Вообще лично я после создания Robots.txt всегда проверяю работоспособность основных типов страниц wordpress сайта — постов, категория, тегов, страниц. Данный файл вместе с остальными методами индексации страниц Яндексом позволит ускорить процесс восприятия вашего сайта со стороны всех поисковиков.

Пример Robots.txt

Вот такой вот файл я использую для данного блога:

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */attachment
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Host: www.use4blog.com
 
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: */attachment
Disallow: */feed
Disallow: /*?*
Disallow: /*?
 
Sitemap: http://www.use4blog.com/sitemap.xml

Отдельная настройка для Яндекса создана дабы прописать Host, второй блок директив — для всех остальных поисковиков. В самом конце, конечно же, ссылка на карту сайта. Здесь запрещены для индексации основные системные директории вордпресс, файл трэкбэков, rss фид и страницы прикрепленных картинок к постам. ВНИМАНИЕ! С запретом, где указан символ «?» нужно быть очень аккуратным — в моем случае активированы «Постоянные ссылки» (ЧПУ) для постов блога, поэтому все работает хорошо. В некоторых же сайтах адрес заметки может быть по типу «?p=1939» — в таком случае данный пример Robots.txt запретит вам все страницы постов, а это неправильно! Именно поэтому всегда проверяйте работу Robots.txt после его создания.

Понравился пост? Подпишись на:

RSS use4blog insideRSS, RSS use4blog insideEmail или twitter!

Поделись хорошей статьей в своем блоге:

Опубликовать в twitter.com        
Оставить комментарий к статье Файл Robots.txt для индексирования сайта в Яндексе

(предыдущая статья)