Robots.txt и WordPress.

Что такое Robots.txt? Текстовый файл, который содержит параметры индексирования сайта для поисковых систем. Понятно что без него не обходиться не один сайт. Находиться  он в корневой директории вашего сайта . Если вы его еще не создали , давайте это сделаем вместе.

Файл начинается с директива User-agent, которая указывает конкретному роботу что делать.

User-agent Yandex роботы Яндекс. Подробно посмотреть параметры можно на сайте робота.
User-agent * для всех роботов.

Далее идут директивы Disallow и Allow.

Disallow запретить доступ робота к сайту или некоторым его разделам. Allow разрешить доступ робота к сайту или некоторым его разделам. Директиве Allow следуют не все роботы, во всяком случае так говорят.

User-agent: Yandex
Allow: /catalog  разрешить индексировать каталог.
Disallow: /          запретить индексировать сайт.

В итоге: можно индексировать только каталог catalog.

Так же в этих директивах можно использовать регулярные выражения спецсимволов * и $.

Спецсимвол * означает любую (в том числе пустую) последовательность символов. Примеры:

Disallow: /cgi-bin/*.aspx запрещает ‘/cgi-bin/example.aspx’
и ‘/cgi-bin/private/private.aspx’ то есть любые файл с расширением aspx.
Disallow: /*private запрещает не только ‘/private’,
но и ‘/cgi-bin/private’ то есть любой путь где содержится private.

Далее следует директива  sitemap.

Если вы используете описание структуры сайта с помощью файла sitemap, то вы указываете к нему путь. Если фалов несколько вы можете указывать путь ко всем.

sitemap: http://example.com/sitemaps.xml
sitemap: http://example.com/sitemaps1.xml

Директива Host.

Собственно указывает на ваш host,  если у вас несколько зеркал то пишем главное зеркало.

Host: www.example.com

При необходимости можно указать порт.

Host: www.example.com:8080

Это основы использования файла robots.txt, более подробно и с нюансами отдельного робота, можно прочитать на сайте разработчика робота.

Общие рекомендации по файлу robots.txt (автор: Специалист по SEO и интернет-рекламе, Денис Биштейнов).

  • Закройте от индексирования админку сайта.
  • Закройте от индексирования личный кабинет, авторизацию, регистрацию.
  • Закройте от индексирования корзину, формы заказа, данные по доставке и заказам.
  • Закройте от индексирования ajax, json-скрипты.
  • Закройте от индексирования папку cgi.
  • Закройте от индексирования плагины, темы оформления, js, css для всех роботов, кроме Яндекса и Google.
  • Закройте от индексирования функционал поиска.
  • Закройте от индексирования служебные разделы, которые не несут никакой ценности для сайта в поиске (ошибка 404, список авторов).
  • Закройте от индексирования технические дубли страниц, а также страницы, на которых весь контент в том или ином виде продублирован с других страниц (календари, архивы, RSS).
  • Закройте от индексирования страницы с параметрами фильтров, сортировки, сравнения.
  • Закройте от индексирования страницы с параметрами UTM-меток и сессий.
  • Проверьте, что проиндексировано Яндексом и Google с помощью параметра «site:» (в поисковой строке наберите «site:site.ru»). Если в поиске присутствуют страницы, которые также нужно закрыть от индексации, добавьте их в robots.txt
  • Укажите Sitemap и Host.

 

Ну а теперь пример моего файла robots.txt для сайта на WordPress с пояснениями.

User-agent: *
 Disallow: /wp-admin             #закрываем админку
 Disallow: /wp-includes
 Disallow: /wp-content/plugins   #закрываем плагины
 Disallow: /wp-content/cache     #закрывам кэш
 Disallow: /wp-content/themes    #темы
 Disallow: *?s=                  #поиск
 Disallow: *&s=                  #поиск
 Disallow: /search/              #поиск
 Disallow: /cgi-bin              #папка на хостинге
 Disallow: /?                    #все параметры запроса на главной
 Disallow: /trackback
 Disallow: */trackback
 Disallow: */*/trackback
 Disallow: */*/feed/*/
 Disallow: */feed
 Disallow: *utm=                  #UTM-меток
 Disallow: /tag                   #тэги , на ваше усмотрение
 Disallow: /comments              #закрываем коментарии
 Disallow: */comment-*            #закрываем коментарии
 Disallow: /readme.html
 Host: 
 sitemap: sitemap.xml             #файл карты сайта
 sitemap: sitemap.xml.gz