Правильный robots.txt - ТОП-4 правила robots.txt

Каждому сайту нужен правильный robots.txt, потому как его настройка помогает решить все проблемы с индексацией, то есть избавить от присутствия в поиске:

– дублей страниц;

– админпанели;

– страниц–результатов поиска по сайту;

– страниц–категорий, состоящих в основном из отрывков статей.

Большинство сайтов на начальном этапе имеют неправильно настроенный robots. В результате это ведет к ухудшениям в SEO – продвижение сайта становится медленным. А все из–за того, что ненужные странички попали в индекс.

Состав файла robots

Директива robots.txt – это инструкция поисковому роботу, как проводить индексацию. С помощью правил, то есть директив, в robots прописываются правила, какие статьи и страницы должны оказаться в поиске, а какие нет. Виды директив:

1. Allow – разрешить индексирование той или иной страницы.

2. Disallow – запретить доступ к странице, и соответственно ее попадание в индекс.

3. User–agent – указывает, для какого конкретно из роботов Яндекса будут действовать указанные в robots.txt правила.

4. Sitemap – путь к файлу sitemap.XML, то есть к карте сайта.

5. Host – для указания главного зеркала (адреса) сайта.

Как найти robots.txt?

Есть простой ответ на вопрос о том, что такое файл Robots – это текстовый файл “Robots.txt“, который лежит в корневой папке сайта. К слову, проверить его содержимое сейчас можно посредством добавления к адресу “robots.txt“, например “site.ru/robots.txt“.

Правильный robots.txt – ТОП–4 рекомендации

Разберем на конкретных примерах, каким должен быть правильный robots.txt:

1. Не стоит забывать, что правильный robots.txt для сайта должен содержать директиву “user–agent“:

User–agent: Yandex

Данная директива указывает поисковику, что далее будут следовать правила только для роботов поисковой системы Яндекс.

Существуют и другие варианты:

User–agent: *

В этом примере директива снимает ограничения на тип робота. Это значит, что правила в файле robots.txt будут распространяться на всех, не только Яндекс.

2. Как правильно сделать robots, чтобы робот поисковой системы не проиндексировал ни одной страницы? Надо использовать директиву disallow с косой чертой!

Disallow: /

Данная конструкция позволяет сократить время на поиски самого простого способа скрыть свой сайт от глаз поисковой системы.

3. Каждый должен написать robots.txt таким образом, чтобы в нем хотя бы раз встречалась директива disallow. Это простая формальность, но если вам нужен правильный robots.txt, то начать нужно так:

User–agent: *

Disallow:

В данном примере файл robots состоит всего из двух строчек: одна указывает, что правила справедливы для любых поисковых роботов, а вторая указывает на то, что перечень запрещенных к индексации страниц пуст. Это правильный robots.txt для тех, у кого сайт построен на одиночных HTML–файлах, то есть не нужно скрывать какие–либо стороны вебресурса от поисковиков.

4. Создать файл robots правильно для разных поисковых систем помогает следующее: в robots.txt прописывают директивы для разных роботов – для Яндекс, к примеру, разрешают брать в индекс любые страницы, а остальным роботам дается указание обходить сайт стороной. Реализовать это можно таким образом:

User–agent: *

Disallow: /

User–agent: Yandex

Disallow:

Как видно из данного примера robots.txt, можно запретить индексацию сайта отдельно взятыми поисковыми системами.

Используя данные правила, можно с легкостью составить базовый robots.txt для сайта и затем дополнять его новыми правилами.

(Visited 30 times, 1 visits today)

Правильный robots.txt – ТОП-4 правила robots.txt

Состав файла robots

Как найти robots.txt?

Правильный robots.txt – ТОП–4 рекомендации