Правильный robots.txt – ТОП-4 правила robots.txt

Каждому сайту нужен правильный robots.txt, потому как его настройка помогает решить все проблемы с индексацией, то есть избавить от присутствия в поиске:

 

дублей страниц;

админпанели;

страницрезультатов поиска по сайту;

страницкатегорий, состоящих в основном из отрывков статей.

Большинство сайтов на начальном этапе имеют неправильно настроенный robots. В результате это ведет к ухудшениям в SEOпродвижение сайта становится медленным. А все изза того, что ненужные странички попали в индекс.

Состав файла robots

Директива robots.txtэто инструкция поисковому роботу, как проводить индексацию. С помощью правил, то есть директив, в robots прописываются правила, какие статьи и страницы должны оказаться в поиске, а какие нет. Виды директив:

1. Allowразрешить индексирование той или иной страницы.

2. Disallowзапретить доступ к странице, и соответственно ее попадание в индекс.

3. Useragentуказывает, для какого конкретно из роботов Яндекса будут действовать указанные в robots.txt правила.

4. Sitemapпуть к файлу sitemap.XML, то есть к карте сайта.

5. Hostдля указания главного зеркала (адреса) сайта.

Как найти robots.txt?

Есть простой ответ на вопрос о том, что такое файл Robotsэто текстовый файлRobots.txt“, который лежит в корневой папке сайта. К слову, проверить его содержимое сейчас можно посредством добавления к адресуrobots.txt“, напримерsite.ru/robots.txt“.

 


Правильный robots.txtТОП4 рекомендации

Разберем на конкретных примерах, каким должен быть правильный robots.txt:

1. Не стоит забывать, что правильный robots.txt для сайта должен содержать директивуuseragent:

Useragent: Yandex

Данная директива указывает поисковику, что далее будут следовать правила только для роботов поисковой системы Яндекс.

Существуют и другие варианты:

Useragent: *

В этом примере директива снимает ограничения на тип робота. Это значит, что правила в файле robots.txt будут распространяться на всех, не только Яндекс.


 

2. Как правильно сделать robots, чтобы робот поисковой системы не проиндексировал ни одной страницы? Надо использовать директиву disallow с косой чертой!

Disallow: /

Данная конструкция позволяет сократить время на поиски самого простого способа скрыть свой сайт от глаз поисковой системы.


 

3. Каждый должен написать robots.txt таким образом, чтобы в нем хотя бы раз встречалась директива disallow. Это простая формальность, но если вам нужен правильный robots.txt, то начать нужно так:

Useragent: *

Disallow:

В данном примере файл robots состоит всего из двух строчек: одна указывает, что правила справедливы для любых поисковых роботов, а вторая указывает на то, что перечень запрещенных к индексации страниц пуст. Это правильный robots.txt для тех, у кого сайт построен на одиночных HTMLфайлах, то есть не нужно скрывать какиелибо стороны вебресурса от поисковиков.


 

4. Создать файл robots правильно для разных поисковых систем помогает следующее: в robots.txt прописывают директивы для разных роботовдля Яндекс, к примеру, разрешают брать в индекс любые страницы, а остальным роботам дается указание обходить сайт стороной. Реализовать это можно таким образом:

Useragent: *

Disallow: /

Useragent: Yandex

Disallow:

Как видно из данного примера robots.txt, можно запретить индексацию сайта отдельно взятыми поисковыми системами.


 

Используя данные правила, можно с легкостью составить базовый robots.txt для сайта и затем дополнять его новыми правилами.

(Visited 24 times, 1 visits today)

Опубликовано

в

от

Метки: