Каждому сайту нужен правильный robots.txt, потому как его настройка помогает решить все проблемы с индексацией, то есть избавить от присутствия в поиске:
– дублей страниц;
– админпанели;
– страниц–результатов поиска по сайту;
– страниц–категорий, состоящих в основном из отрывков статей.
Большинство сайтов на начальном этапе имеют неправильно настроенный robots. В результате это ведет к ухудшениям в SEO – продвижение сайта становится медленным. А все из–за того, что ненужные странички попали в индекс.
Состав файла robots
Директива robots.txt – это инструкция поисковому роботу, как проводить индексацию. С помощью правил, то есть директив, в robots прописываются правила, какие статьи и страницы должны оказаться в поиске, а какие нет. Виды директив:
1. Allow – разрешить индексирование той или иной страницы.
2. Disallow – запретить доступ к странице, и соответственно ее попадание в индекс.
3. User–agent – указывает, для какого конкретно из роботов Яндекса будут действовать указанные в robots.txt правила.
4. Sitemap – путь к файлу sitemap.XML, то есть к карте сайта.
5. Host – для указания главного зеркала (адреса) сайта.
Как найти robots.txt?
Есть простой ответ на вопрос о том, что такое файл Robots – это текстовый файл “Robots.txt“, который лежит в корневой папке сайта. К слову, проверить его содержимое сейчас можно посредством добавления к адресу “robots.txt“, например “site.ru/robots.txt“.
Правильный robots.txt – ТОП–4 рекомендации
Разберем на конкретных примерах, каким должен быть правильный robots.txt:
1. Не стоит забывать, что правильный robots.txt для сайта должен содержать директиву “user–agent“:
User–agent: Yandex
Данная директива указывает поисковику, что далее будут следовать правила только для роботов поисковой системы Яндекс.
Существуют и другие варианты:
User–agent: *
В этом примере директива снимает ограничения на тип робота. Это значит, что правила в файле robots.txt будут распространяться на всех, не только Яндекс.
2. Как правильно сделать robots, чтобы робот поисковой системы не проиндексировал ни одной страницы? Надо использовать директиву disallow с косой чертой!
Disallow: /
Данная конструкция позволяет сократить время на поиски самого простого способа скрыть свой сайт от глаз поисковой системы.
3. Каждый должен написать robots.txt таким образом, чтобы в нем хотя бы раз встречалась директива disallow. Это простая формальность, но если вам нужен правильный robots.txt, то начать нужно так:
User–agent: *
Disallow:
В данном примере файл robots состоит всего из двух строчек: одна указывает, что правила справедливы для любых поисковых роботов, а вторая указывает на то, что перечень запрещенных к индексации страниц пуст. Это правильный robots.txt для тех, у кого сайт построен на одиночных HTML–файлах, то есть не нужно скрывать какие–либо стороны вебресурса от поисковиков.
4. Создать файл robots правильно для разных поисковых систем помогает следующее: в robots.txt прописывают директивы для разных роботов – для Яндекс, к примеру, разрешают брать в индекс любые страницы, а остальным роботам дается указание обходить сайт стороной. Реализовать это можно таким образом:
User–agent: *
Disallow: /
User–agent: Yandex
Disallow:
Как видно из данного примера robots.txt, можно запретить индексацию сайта отдельно взятыми поисковыми системами.
Используя данные правила, можно с легкостью составить базовый robots.txt для сайта и затем дополнять его новыми правилами.