Что такое Robots.txt? Текстовый файл, который содержит параметры индексирования сайта для поисковых систем. Понятно что без него не обходиться не один сайт. Находиться он в корневой директории вашего сайта . Если вы его еще не создали , давайте это сделаем вместе.
Файл начинается с директива User-agent, которая указывает конкретному роботу что делать.
User-agent Yandex роботы Яндекс. Подробно посмотреть параметры можно на сайте робота.
User-agent * для всех роботов.
Далее идут директивы Disallow и Allow.
Disallow запретить доступ робота к сайту или некоторым его разделам. Allow разрешить доступ робота к сайту или некоторым его разделам. Директиве Allow следуют не все роботы, во всяком случае так говорят.
User-agent: Yandex
Allow: /catalog разрешить индексировать каталог.
Disallow: / запретить индексировать сайт.
В итоге: можно индексировать только каталог catalog.
Так же в этих директивах можно использовать регулярные выражения спецсимволов * и $.
Спецсимвол * означает любую (в том числе пустую) последовательность символов. Примеры:
Disallow: /cgi-bin/*.aspx запрещает ‘/cgi-bin/example.aspx’
и ‘/cgi-bin/private/private.aspx’ то есть любые файл с расширением aspx.
Disallow: /*private запрещает не только ‘/private’,
но и ‘/cgi-bin/private’ то есть любой путь где содержится private.
Далее следует директива sitemap.
Если вы используете описание структуры сайта с помощью файла sitemap, то вы указываете к нему путь. Если фалов несколько вы можете указывать путь ко всем.
sitemap: http://example.com/sitemaps.xml
sitemap: http://example.com/sitemaps1.xml
Директива Host.
Собственно указывает на ваш host, если у вас несколько зеркал то пишем главное зеркало.
Host: www.example.com
При необходимости можно указать порт.
Host: www.example.com:8080
Это основы использования файла robots.txt, более подробно и с нюансами отдельного робота, можно прочитать на сайте разработчика робота.
Общие рекомендации по файлу robots.txt (автор: Специалист по SEO и интернет-рекламе, Денис Биштейнов).
- Закройте от индексирования админку сайта.
- Закройте от индексирования личный кабинет, авторизацию, регистрацию.
- Закройте от индексирования корзину, формы заказа, данные по доставке и заказам.
- Закройте от индексирования ajax, json-скрипты.
- Закройте от индексирования папку cgi.
- Закройте от индексирования плагины, темы оформления, js, css для всех роботов, кроме Яндекса и Google.
- Закройте от индексирования функционал поиска.
- Закройте от индексирования служебные разделы, которые не несут никакой ценности для сайта в поиске (ошибка 404, список авторов).
- Закройте от индексирования технические дубли страниц, а также страницы, на которых весь контент в том или ином виде продублирован с других страниц (календари, архивы, RSS).
- Закройте от индексирования страницы с параметрами фильтров, сортировки, сравнения.
- Закройте от индексирования страницы с параметрами UTM-меток и сессий.
- Проверьте, что проиндексировано Яндексом и Google с помощью параметра «site:» (в поисковой строке наберите «site:site.ru»). Если в поиске присутствуют страницы, которые также нужно закрыть от индексации, добавьте их в robots.txt
- Укажите Sitemap и Host.
Ну а теперь пример моего файла robots.txt для сайта на WordPress с пояснениями.
User-agent: * Disallow: /wp-admin #закрываем админку Disallow: /wp-includes Disallow: /wp-content/plugins #закрываем плагины Disallow: /wp-content/cache #закрывам кэш Disallow: /wp-content/themes #темы Disallow: *?s= #поиск Disallow: *&s= #поиск Disallow: /search/ #поиск Disallow: /cgi-bin #папка на хостинге Disallow: /? #все параметры запроса на главной Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: */*/feed/*/ Disallow: */feed Disallow: *utm= #UTM-меток Disallow: /tag #тэги , на ваше усмотрение Disallow: /comments #закрываем коментарии Disallow: */comment-* #закрываем коментарии Disallow: /readme.html Host: sitemap: sitemap.xml #файл карты сайта sitemap: sitemap.xml.gz