Константин Хмелев

Правильный robots.txt для wordpress - важнейшие моменты

Опубликовано: 27.03.2016
Время на чтение: 10 мин
54
18

Здравствуйте, дорогие друзья!

Сейчас напишу статью о нашумевшем файле, которого так все боятся молодые владельцы сайтов. И не зря, ведь при неправильном его составлении могут возникнуть плохие последствия.

Тема статьи  - файл robots.txt. Мы сегодня разберем от основ его составления до примера моего личного файла, который на данный момент хорошо работает. Материал получился довольно сложный и после первого прочтения у вас может не сложиться впечатление целостной картины, но основную мысль вы должны уловить. Будет много советов и инсайдерской информации, которая поможет сделать индексацию сайта более лучшей.

Перед составлением сайта я настоятельно рекомендую ознакомиться с важнейшими моментами работы файла роботс. Вы должны понимать хотя бы базовые принципы работы роботов поисковых систем, чтобы понимать, что и как стоит закрывать от индексации.

Важная теория

Сначала определение самого файла.

Файл Robots.txt дает понимание поисковых систем о том, что не нужно индексировать на сайте для предотвращение появления дублированного контента. Можно закрыть от индексации целые разделы, отдельные страницы, папки на хостинге и так далее. Все, что только в голову взбредет.

Именно на этот файл в первую очередь обращают внимание поисковые роботы при заходе на сайт, чтобы понять, куда стоит смотреть, а что необходимо игнорировать и не заносить в поисковую базу.

Также данный файл служит для облегчения работы поисковым роботам, чтобы они не индексировали много мусорных страниц. Это создает нагрузку на наш сайт, так как роботы будут долго лазить в процессе индексирования.

Файл Robots.txt размещается в корневом каталоге любого сайта и имеет расширение обычного текстового документа. То есть мы его можем редактировать у себя на компьютере с помощью обычного текстового редактора - блокнота.

Чтобы просмотреть содержимое этого файла на лбом сайта, стоит к доменному имени дописать название файла через правую наклонную черту вот так: имя домена.ру/robots.txt

Очень важно понимать, что для некоторых сайтов файл может различаться, так как может быть сложная структура. Но основная мысль в том, чтобы закрыть страницы, которые генерируются самим движком и создают дублированный контент. Также задача стоит в том, чтобы предотвратить попадание таких страниц в индекс, а не только их содержимого. Если у вас простой сайт на WordPress, то файл вам подойдет.

Также рекомендую во все вникать и постараться разобраться в тонкостях, так как это те моменты, которые постепенно могут губить ресурс.

Далее стоит понять, как поисковые системы относятся к этому файлу, так как в Яндексе и в Google имеются различия в восприятии запретов, которые прописываются в файле robots.

Различия в работе для Яндекса и Google

Единственное и пожалуй весомое различие проявляется в том, что Яндекс воспринимает запреты в файле, как некое обязательное правило и довольно хорошо следует всем запретам. Мы ему сказали, что эти страницы в индекс брать не нужно, он и не берет их.

В Google же ситуация совершенно иная. Дело в том, что Google действует по принципу "на зло". Что я имею ввиду? Мы ставим запрет на некоторые служебные страницы. Самой частой такой страницей на которую ставят запрет, является страница, создаваемая ссылкой "Ответить" при включенной функции древовидных комментариев.

ссылка ответа в древовидных комментариях

Страница по такой ссылке имеет приставку "replytocom". Когда мы ставим запрет на такую страницу, google не может получить доступ к ее содержимому и забирает такой адрес в индекс. В итоге, чем больше комментариев на ресурсе, тем больше и мусорных адресов в индексе, что не есть хорошо.

Конечно же, так как мы закрыли такие адреса от индексации, то содержимое страниц не индексируется и не происходит появление дублированного контента в индекс. Об этом свидетельствует надпись «A description for this result is not available because of this site’s robots.txt».

url адрес с индексе

Переводится это так: «Описание веб-страницы не доступно из-за ограничения в robots.txt».

Как бы ничего страшного. Но страница то попала в индекс, хоть и дублирования не произошло. В общем, это может быть, но можно ведь полностью избавиться от такого мусора.

И тут имеется несколько решений:

  • Самый простой вариант - открыть такие адреса для робота google в файле robots, чтобы он смог их просканировать. Тогда он наткнется на мета-тег noindex в исходном коде страницы, который не позволит забрать документ в индекс.мета-тег noindex для replytocom

    Даем доступ - google сам во всем разбирается. Также на такие страницы добавляется атрибут канонических адресов rel="canonical", который укажет на главный адрес данной страницы, что скажет поисковой системе:

    Данный адрес индексировать не нужно, так как имеется главная версия страницы, которую и стоит взять в базу.

    В итоге, имеется 2 настройки, которые не позволят забрать мусор в индекс. Но это при условии, что подобные страницы открыты в файле роботс и гугл полностью имеет к ним доступ;

  • Более сложный вариант заключается в полном закрытии таких ссылок от поисковых систем, чтобы их даже обнаружить нельзя было. Тут можно использовать различные скрипты и плагины. Хорошая функция имеется в плагине WordPress seo by yoast, которая убирает приставку "replytocom" из ссылок "Ответить".удаление приставки replytocom при помощи плагина wordpress seo by yoast

Также имеются специальные плагины под настройку комментариев, где имеется функция закрытия таких ссылок. Можно и их использовать. Но зачем изобретать колесо? Ведь можно ничего не делать и все будет хорошо и без нашего участия. Главное здесь - открыть доступ, чтобы google смог разобраться во всей ситуации.

Google обязательно найдет такие страницы по внутренним ссылкам (в нашем случае для примера - ссылка "Ответить"). Об этом нам говорит сама справка гугла:

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы, а также другие общедоступные сведения, например текст ссылок на сайт или заголовок из каталога Open Directory Project (www.dmoz.org), могут появиться в результатах поиска Google.

Однако даже если вы запретите поисковым роботам сканировать содержание сайта с помощью файла robots.txt, это не исключает, что Google обнаружит его другими способами и добавит в индекс.

А что дальше? Если доступ открыть, то он наткнется на мета-тег Noindex, запрещающий индексирования страницы, и на атрибут rel="canonical", который укажет на главный адрес страницы. Из последнего роботу гугла будет понятно, что данный документ не является главным и его не стоит брать в индекс. Вот и все дела. Ничего в индекс не попадет и никаких конфликтов с поисковым роботом Google не произойдет. И не придется потом избавляться от мусора в индексе.

Если же доступ будет закрыт, то велика вероятность, а скорее всего 100%, что адреса, найденные по таким ссылкам, googlebot проиндексирует. В этом случае придется от них избавляться, что уже занимает время ни одного дня, недели или даже месяца. Все зависит от количества мусора.

В общем, чтобы не произошло такого, стоит использовать правильный файл без лишних запретов + открытые всех подобных страниц для поисковой системы Google.

Можно конечно же просто закрыть все подобные ссылки скриптами или плагинами и сделать 301 редирект с дублированных страниц на главную, чтобы поискового робота сразу перекидывало на главный адрес, который он и будет индексировать, не обращая внимание на дубли.

Второй вариант является более жестким, так сказать более твердым, так как мы делаем некоторые манипуляции, закрывая весь мусор от поисковиков. Мы нее даем им самим разобраться в сложившейся ситуации. Ни малейшего шанса, что страницы по внутренним ссылкам попадут в индекс.

Лично я так и поступил. У меня все закрыто скриптом и редиректами.

Прежде, чем мы рассмотрим основу правильно файла robots, разберем основные директивы, чтобы на базовом уровне вы понимали, как составляется этот файл и как его можно будет доработать под свои нужды.

Основные директивы

Основными директивами файла robots являются:

  • User-agent - директива, которая указывает, к какому роботу поисковых систем принадлежат правила, прописанные для запретов и разрешений. Если правила необходимо присвоить ко всем поисковым системам, то после директивы ставится звездочка *, если же стоит прописать правила к определенному роботу, например к Яндексу, то стоит прописать имя робота. В данном случае директива будет прописана так:

    User-agent: Yandex

    Название других роботов:

    • Google — Googlebot;
    • Яндекс — Yandex;
    • Рамблер — StackRambler;
    • Мэйл.ру — Mail.Ru.
  • Disallow - директива призвана для запрета от индексации каталогов, страниц и документов. Чтобы запретить какой-то раздел, что после директивы прописать название каталога через правую наклонную черту. Например необходимо закрыть категорию "inter" на сайте, тогда необходимо будет прописать следующим образом:

    Disallow: /inter

    В этом случае будет запрещен от индексации каталог "inter", а также все, что находится внутри него;

  • Allow - директива для разрешения частей сайта к индексации. Если нужно разрешить какую-то часть, то по аналогии с директивой Disallow прописывает название каталога или отдельной страницы. Например, если мне нужно открыть подраздел "pr" внутри каталога "inter", то правило будет прописано следующим образом:

    Allow: /inter/pr

    Хоть каталог "inter" мы и закрыли в предыдущем случае, подраздел "pr" будет индексироваться и все, что внутри него также будет доступно для поисковых роботов.

  • Host - директива призвана, чтобы указать поисковым роботам основное зеркало сайта (с www или без).директива host

    Прописывать стоит только к Яндексу. Также необходимо указать главное зеркало сайта в панели веб-мастера Яндекс.

    главное зеркало сайта

  • Sitemap - директива призвана указать путь к карте сайта в формате XML. Стоит прописывать ко всем поисковым роботам. Достаточно указать только к директиве User-agent: *, которая ко всем роботам и действует.директива sitemap

Важно! После каждой директивы обязательно должен быть отступ в виде одного пробела.

Зная основные моменты в работе robots.txt и базовые принципы его составление, можно приступить к его сборке.

Составляем правильный файл

Вообще, идеальным вариантом было бы полностью открыть свой сайт к индексации и дать возможность поисковым роботам самим разобраться во всей ситуации. Но их алгоритмы не совершенны и они берут в индекс все, что можно только забрать в поисковую базу. А нам это ни к чему, так как будет куча дублированного контента в рамках сайта и куча мусорных страниц.

Чтобы такого не было, нужно составить такой файл, который будет разрешать к индексации только страницы самих статей, то есть контента и по надобности страницы, если они несут полезную информацию посетителю и поисковым системам.

Из пункта 2 сего материала вам стало понятно, что в файле не должно быть лишних запретов для Google, чтобы в индекс не полетели лишние адреса страниц. Это ни к чему. Яндекс же относится к данному файлу нормально и запреты воспринимает хорошо. Что укажем к запрету, то Яндекс и не будет индексировать.

На основе этого я сделал файл, который открывает весь сайт для поисковой системи Google (кроме служебных директорий самого движка WordPress) и закрывает все страницы дублей от Яндекса, Mail и других поисковиков.

Мой файл имеет довольно большой вид.

User-agent: Yandex
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /xmlrpc.php
Disallow: */author/*
Disallow: */feed/
Disallow: */feed
Disallow: /?feed=
Disallow: */page/*
Disallow: */trackback/
Disallow: /search
Disallow: */tag/*
Disallow: /?wp-subscription-manager*
Allow: /wp-content/uploads/
Host: kostyakhmelev.ru

User-agent: Googlebot
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Allow: /wp-content/uploads/

User-agent: Mail.Ru
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /xmlrpc.php
Disallow: */author/*
Disallow: */feed/
Disallow: */feed
Disallow: /?feed=
Disallow: */page/*
Disallow: */trackback/
Disallow: /search
Disallow: */tag/*
Disallow: /?wp-subscription-manager*
Allow: /wp-content/uploads/

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /xmlrpc.php
Disallow: /?wp-subscription-manager*
Allow: /wp-content/uploads/
Sitemap: //kostyakhmelev.ru/sitemap.xml
Sitemap: //kostyakhmelev.ru/sitemap.xml.gz

User-agent: Mediapartners-Google
Disallow:

User-agent: YaDirectBot
Disallow:

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: YandexImages
Allow: /wp-content/uploads/

[box style="1"]

Не забудьте изменить адрес моего домена на свой в директивах Host и Sitemap.

[/box]

Как видим, файл Robots.txt для wordpress вышел довольно большой. Это связано с тем, что правила я прописал к 3м основным роботам: Яндекс, Google и mail. К первым 2м обязательно нужно сделать. Также и к поисковому роботу mail не помешает, так как в последнее время поисковик довольно неплохо развивается и начинает приводить все больше и больше трафика.

Что касается самого содержимого файла, то для роботов Яндекса, Mail и для дериктивы, работающей со всеми роботами (User-agent: *), правила прописаны одни и те же. Запрет идет для всех основных моментов, связанных с появлением дублей в индексе.

Только к поисковому роботу Google я прописал отдельный вариант, который предполагает открытие всего содержимого сайта, кроме служебных папок самого движка. Почему именно так, я рассказывал выше. Нужно, чтобы Googlebot мог просканировать все страницы по внутренним ссылка и увидеть на них запреты в виде мета-тега robots со значением noindex, а также атрибут rel="canonical", что заставит его оставить дубли в покое.

Если же мы в файле роботс сделаем запрет, то робот не сможет увидеть этих данных (тегов) и, как я говорил ранее "на зло", возьмет адрес в индекс.

Также к каждому роботу я разрешил индексирование изображений (Allow: /wp-content/uploads/).

В конце файла я отдельно прописал разрешение индексации изображений для картиночных роботов Google и Яндекса. Вместе с этим разрешил весь сайт для роботов контекстной рекламы этих же поисковиков.

Интересным моментом является закрытие ссылки, которая создается плагином Subscribe to comments.

ссылка от плагина subscribe to comments

Если вы его используете, то в данном файле используйте запрет на ее индексирование, так как поисковый робот ее также обнаружит.

Для этого используется следующая строка:

Disallow: /?wp-subscription-manager*

Используя данный файл вы не будете бояться, что в индексе будет появляться дублированный контент, который образуется самим движком, а точнее его внутренними ссылками на страницах сайта. Яндекс все запреты сочтет за некую догму, а Google наткнется на запреты, когда зайдет на дубли, создаваемые движком.

Как я уже описывал ранее, то более продвинутыми настройками является скрытие таких ссылок, чтобы поисковые роботы даже не смогли их найти. К тому же это не только в 100% мере обезопасит нас сейчас, но и даст нам некую подстраховку на будущее, так как алгоритмы поисковых систем постоянно меняются и возможно, что запреты, которые работают сейчас, не будут работать через некоторое время.

Но тут также. Разработчики движка всегда идут в ногу со временем и учтут все новые изменения в работе ПС в совершенствовании wordpress. Исходя из этого, бояться в ближайшее время ничего не стоит.

В следующих статьях я буду описать процесс избавления от дублей страниц, которые могут появиться на ресурсе, а также способы скрытия опасных ссылок, создаваемых средствами WordPress, если вы все же решите обезопасить себя на все 100%. Мы ведь не знаем, как поведет себя поисковой робот? Может он начнет игнорировать запреты даже при наличии мета-тега Noindex и атрибута rel="canonical". В этом случае спасет скрытие опасных ссылок.

Итак, возможно, статья вышла довольно сложная для первого понимания, так как затронут не только вопрос составления самого файла, но и принципов работы поисковых роботов и того, что стоит сделать в идеале, что страшно, а что нет.

Если у вас имеются какие-то вопросы или неясности, то буду благодарен, если напишите об этом в комментариях, чтобы я как-то изменил данный материал для более отзывчивого восприятия другими пользователями.

На этом закончу этот пост. До скорых встреч!

С уважением, Константин Хмелев!

Плохо
0
Интересно
0
Супер
0
Обсуждение
  • Олег
    Опубликовано: 10.03.2015 Ответить на сообщение

    Запрет в meta name='robots' для страниц replytocom прописывается силами самого движка, не обязательно для этого использовать seo-плагины и другие танцы с бубном, типа закрытия кнопок скриптами. Просто надо дать возможность Гуглу видеть эту директиву не запрещая в robots и дублей не будет.

    • Константин Хмелев
      Опубликовано: 10.03.2015 Ответить на сообщение

      Все верно, Олег. Также добавляется атрибут rel="canonical". Обновил информацию в статье, убрал все лишнее, чтобы сильно не забивать голову новичкам. Нужно было уже давно это сделать. Спасибо, что сделали замечание.

      • Олег
        Опубликовано: 10.03.2015 Ответить на сообщение

        Это не замечание, так мысли вслух :-)

        А вообще на этом блоге много толковой информации и подается все грамотно по фен-шую. Если не сбавлять оборотов, то перспективы вполне радужные. Желаю удачи!

        • Константин Хмелев
          Опубликовано: 11.03.2015 Ответить на сообщение

          Мысли вслух, но в самую точку) Зачем парить мозги тем, что в данной статье сильно то и не нужно. Если уже захотят, то там ссылки на другие материалы, а тут описал лишь сам принцип.

          Спасибо за оценку! Еще один стимул продолжать далее)

  • Ирина
    Опубликовано: 21.04.2015 Ответить на сообщение

    Здравствуйте, Константин!
    Ваш сайт стал для меня энциклопедией! Спасибо за очень нужную и важную информацию.
    У меня проблемы индексирования гуглем. Мой robots похож на Ваш. Но гугл проиндексировал и плагины, и метки, и все другое...
    Скажите, пожалуйста, а куда поставить мета-тег noindex? В какой файл и в каком месте? Этот момент я не поняла.
    Спасибо.

    • Константин Хмелев
      Опубликовано: 21.04.2015 Ответить на сообщение

      Здравствуйте. Ваш файл далеко не такой, как у меня. В моем файле все страницы, которые могут создавать дублированный контент и попадать в индекс гугла, открыты именно для поискового робота гугла. Такие страницы даже, если их закрыть в файле роботс, могут попасть в дополнительный индекс (именуемый, как "сопли"). Это происходит, когда такие страницы доступны по каким-либо ссылкам на сайте.

      В вашем случае такими страницами, которые доступны по ссылкам, являются страницы меток и они закрыты в файле роботс директивой tag. Лучшим способом будет полностью открыть сайт для гугла и тогда на различных страницах дублированного контента (метки, страницы ответов replytocom и другие) средствами движка будет находиться мета-тег noindex, который не позволит попадание таких страниц в индекс гугла. В случае же закрытия таких страниц, когда они доступны по внутренним ссылкам, робот гугла не может разобраться в ситуации, не видит мета-тег noindex, в следствие чего забирает документы в индекс (в сопли).

      Думаю, что я ответил уже на вопрос и дополнительно размещать мета-тег noindex не потребуется. Проще открыть сайт для google полностью, чтобы робот данной ПС смог сам во всем разобраться. Как показывает практика, все отлично при полном открытии для гугла. Единственное, что при наличии уже достаточного количества мусора в индексе в виде ненужных страниц дублей, после открытия они сразу не исчезнут. В зависимости от их количества, они будут исчезать постепенно по мере обхода сайта поисковым роботом.

      Мета-тег noindex на всех опасных страницах, которые создают дублированный контент, добавляется движком WordPress автоматически и работает на ура. Но, при закрытии таких страниц, робот гугла не может его нормально воспринимать.

  • Ирина
    Опубликовано: 21.04.2015 Ответить на сообщение

    Спасибо за быстрый ответ!
    А я могу тупо скопировать Ваш роботс?

    • Константин Хмелев
      Опубликовано: 21.04.2015 Ответить на сообщение

      Можете. Не просто так же я его давал. Только в нужных строках измените домен моего сайта на свой.

  • Ирина
    Опубликовано: 21.04.2015 Ответить на сообщение

    Ой, тогда мне надо для гугла удалить запреты на плагины, feed, метки?

    • Константин Хмелев
      Опубликовано: 21.04.2015 Ответить на сообщение

      Если вы про свой файл, то да. Удалите все запреты для поискового робота гугл. Оставьте только запреты на служебные папки движка wp-content

    • Константин Хмелев
      Опубликовано: 21.04.2015 Ответить на сообщение

      А что вы имеете ввиду под запретом на плагины? Как плагины могут попасть в индекс?

  • Ирина
    Опубликовано: 21.04.2015 Ответить на сообщение

    Очень просто! Три страницы только под плагин wp-notcaptcha: lifeandhobby.ru/wp-content/plugins/wp-notcaptcha/l...
    Описание веб-страницы недоступно из-за ограничений в файле robots.txt. Подробнее...
    Плюс куча всяких меток! Например: mysite.ru/metka/virtualnaya-lyubov/feed
    Описание веб-страницы недоступно из-за ограничений в файле robots.txt. Подробнее...
    Я уже и в .htaccess прописала все, что надо. А все эти "сопли" не исчезают!
    Попробую Ваш роботс поставить, разумеется, с адресом моего сайта.
    Уже и replytocom не высвечивается, и убрала вложенность в комментариях. Но, проиндексированные ответы не удаляются.
    Спасибо за отзывчивость!

    • Константин Хмелев
      Опубликовано: 21.04.2015 Ответить на сообщение

      По поводу меток я уже ранее все сказал. После нужных правок в файле и без лишних косяков в оптимизации, все мусорные страницы начнут исчезать. Не ждите, что они исчезнут быстро. Косяки в продвижении сайтов исчезают, но долго, либо же вообще никогда. В данном случае может придется ждать ни один месяц. По поводу страниц плагина, то они от индексации закрыты, но все же попали в дополнительный индекс вследствие того, что гугл нашел к ним доступ по внутренним ссылкам. Возможно робот гугла нашел путь к страницам плагина в исходном коде страниц сайта или имеется данная ссылка в явном виде на станицах статей. Вообще, я не знаю, зачем данный плагин стоит. В нем имеется нужда? По-моему он совершенно не нужен. Хотя, может я ошибаюсь.

      Можно не убирать функцию древовидных комментариев. Она нужна на сайте и с ней не будет никаких мусорных страниц, при условии, что данные страницы (создаваемые ссылкой "ответить" с приставкой replytocom) будут НЕ ЗАКРЫТЫ от робота гугла в файле роботс.

  • Ирина
    Опубликовано: 21.04.2015 Ответить на сообщение

    А под запретом на плагины я понимаю - Disallow: /wp-content/plugins.
    И на фиды.
    Этот блог у меня тренировка.
    Есть другой. Его шаблон еще довожу до ума. Я его перевела с английского. И заметила, что у не могу найти у него ссылку на RSS. А уже столько сделала!

    • Константин Хмелев
      Опубликовано: 21.04.2015 Ответить на сообщение

      А зачем вам ссылка на рсс? Если действительно нужна, то добавьте ее аналогичным образом, как она стоит в другом шаблоне. Принцип построения РСС в вордпресс один и тот же. Просто скопируйте ссылку с одного шаблона и разместите в другой. Если нужно, то при том замените адрес домена.

  • Ирина
    Опубликовано: 21.04.2015 Ответить на сообщение

    Спасибо, Константин!
    На душе стало легче!
    Попробую сделать все, что Вы посоветовали.

  • Ира
    Опубликовано: 17.07.2015 Ответить на сообщение

    Здраствуте, подскажите нужно ли закрывать от индексации категории Disallow: /category/*/* или нет?! никак не могу разобраться в этом вопросе...

    • Константин Хмелев
      Опубликовано: 17.07.2015 Ответить на сообщение

      Категории закрывать никогда не нужно. Они должны быть открыты, как в файле роботс, так и в других возможных местах, где их можно закрыть (плагины).

  • Катя
    Опубликовано: 31.07.2015 Ответить на сообщение

    Добрый вечер, а как прописывать адрес поддомена в robot.txt, example.com/blog или blog.example.com? И почему sitemap доступен только по адресу example.com/blog/sitemap.xml, blog.example.com/sitemap.xml

    • Константин Хмелев
      Опубликовано: 31.07.2015 Ответить на сообщение

      Добрый. Поддомен может быть только такого варианта - blog.example.com. example.com/blog - это не поддомен, а раздел/страница домена example.com. Sitemap будет доступен на том домене или поддомене, где он создан. Если на поддомене карты нет, тогда с какого перепугу ей быть там доступной?:)

  • Антон
    Опубликовано: 28.09.2015 Ответить на сообщение

    Костя, подскажи, пожалуйста, как быть с директивами host и sitemap для кириллического домена? Прописывать через punycode, вида Host: xn--d1acufc.xn--p1ai ?

    • Константин Хмелев
      Опубликовано: 29.09.2015 Ответить на сообщение

      Указывать через punycode. Яндекс сам об этом говорит. Это важно.

      • Антон
        Опубликовано: 29.09.2015 Ответить на сообщение

        А какое лично у вас вообще отношение к кириллическим доменам? К их продвижению? Было бы интересно на эту тему увидеть статью)

        • Константин Хмелев
          Опубликовано: 30.09.2015 Ответить на сообщение

          У меня негативное отношение к ним, если честно) И не потому, что я имел негативный опыт работы с ними. Просто более привычный вариант для меня, да и для большинства, это обычные домены в транслитерации. Статья вряд ли будет на тему кириллическим доменов, т.к. по ним много не напишешь. Тем более, что я привык писать материал из личного опыта, экспериментов и т.д. Может быть и будет такой пост, но не скоро, т.к. есть темы более приоритетней, до которых не могут дойти мои руки.

  • Aleksei
    Опубликовано: 29.09.2015 Ответить на сообщение

    Константин, а если в плагине WordPress seo by yoast стоит галочка в чекбоксе "Удалить переменные replytocom", то нужно ли в robots.txt их тоже закрывать? По крайней мере от Яндекса и Майл-а?
    Спасибо.

    • Константин Хмелев
      Опубликовано: 29.09.2015 Ответить на сообщение

      Нет смысла вообще обращать внимание на replytocom, т.к. на страницах, которые создаются этим тегом, стандартным функционалом движка добавляется мета-тег noindex, запрещающий индексирование таких страниц. Что ставь эту настройку в плагине, что не ставь, разницы не будет. Только лишь в адресе ссылки "ответить" пропадет эта приставка.

  • Ирина
    Опубликовано: 05.10.2015 Ответить на сообщение

    Константин, скажите. пожалуйста, в каких случаях надо вставлять:
    Allow: /assets/css/*.css
    Cпасибо!

    • Константин Хмелев
      Опубликовано: 05.10.2015 Ответить на сообщение

      Здравствуйте. Файлы стилей от роботов закрывать не нужно. Тем более, вы мне предоставили какую-то папку "сам пойми что") Откуда я знаю, что это такое и когда ее нужно закрывать?)

  • Ирина
    Опубликовано: 05.10.2015 Ответить на сообщение

    Почему Вы так рассердились?
    Allow: /assets/css/*.css - это не закрыть, а разрешить допуск. Я просто хотела уточнить.
    Спасибо за ответ!

    • Константин Хмелев
      Опубликовано: 05.10.2015 Ответить на сообщение

      Я не рассердился. Об этом свидетельствуют смайлики в конце каждого вопроса) Опять же, разрешать ничего не нужно, т.к. если нет запрета, то робот все увидит.

  • Ирина
    Опубликовано: 05.10.2015 Ответить на сообщение

    Спасибо! ))

  • Константин
    Опубликовано: 11.10.2015 Ответить на сообщение

    Тёзка, привет! Ну что же, с Богом, копирую твой robot.txt на свой блог, и поехали! Кстати, твой блог - пока единственный "живой" ресурс, посвящённый WP. На всех остальных инфа и комменты ну ооооочень старые. А тут видно - всё актуально! Так держать.

    У меня к тебе вопрос. Я сгенерил xml-карту блога гугловским плагином XML-Sitemap и в итоге у меня теперь на странице "Карта блога" отображаются две карты, одна - созданная DDSitemapGen, а вторая - созданная XML-Sitemap. Я что хочу сказать: у меня сейчас на одной странице выведено аж две карты в формате html. Как мне скрыть от пользователей какую-нибудь из них? Я бы, честно говоря, оставил бы для посетителей ту, которую сгенерил XML-Sitemap, потому что её ковырять в style.css тупо меньше надо...

    Ко мне можешь на "ты" обращаться, никаких проблем! Очень жду ответа! Спасибо!

    • Константин Хмелев
      Опубликовано: 11.10.2015 Ответить на сообщение

      Привет) Плагин XML-Sitemap не создает HTML карту сайта. Дело не в этом плагине. Могу предположить, что кроме DDSitemapGen установлен еще какой-то плагин для создания HTML карты, который и дублирует ее на соответствующей странице. Может быть даже это не второй плагин карты сайта, а какой-то другой, например плагин для вывода свежих записей или что-то еще в этом духе.

      • Константин
        Опубликовано: 12.10.2015 Ответить на сообщение

        Константин, привет! Слушай, а где мне взять ссылку в формате "xml.gz" на карту своего блога? Пока только знаю, где находится ссылка на карту в формате "xml"...

        • Константин Хмелев
          Опубликовано: 12.10.2015 Ответить на сообщение

          Привет. Архив в формате .gz создается точно по тому же адресу, что и сама XML карта. Просто укажи идентичную строку, только с расширением gz на конце.

          • Константин
            Опубликовано: 12.10.2015 Ответить на сообщение

            Спасибо за оперативность и адекват! Robot.txt по твоему образцу запустил у себя в блоге... )))

          • Константин
            Опубликовано: 12.10.2015 Ответить на сообщение

            Костя, а подскажи, пожалуйста, ещё один момент. Я правильно понимаю, что видимая карта в формате html нужна только пользователям? Т.е. если я решу её скрыть от просмотра на своём блоге, то прописанная мною в вебмастерах Гугла и Яндекса карта в xml всё равно будет работать?

          • Константин Хмелев
            Опубликовано: 12.10.2015 Ответить на сообщение

            HTML карта нужна и для поисковых роботов, поэтому скрывать ее не нужно. На каждой странице сайта необходима ссылка на html карту. У меня на сайтах это реализовано ссылкой в подвале сайта. XML карта никак не связана с HTML, поэтому никакие махинации с ХТМЛ картой не повлияют на XML

          • Константин
            Опубликовано: 12.10.2015 Ответить на сообщение

            Ок. Спасибо!
            Помнишь, я говорил тебе, что у меня сразу выводится аж две карты в html? Так вот, я разобрался. Одну карту выводит Dagon Desigh Sitemap, а вторую - тема блога. Поэтому плагин Dagon Desigh Sitemap я удалю, чтобы не захламлять блог.
            Но ты мне скажи, для того чтобы моя карта xml постоянно автоматически обновлялась, мне нужно будет использовать All in one Seo Pack, как ты писал в одном из своих постов? Я правильно тебя понял?

          • Константин Хмелев
            Опубликовано: 12.10.2015 Ответить на сообщение

            XML карта и так автоматически обновляется, если она сделана не руками. Если установлен какой-то плагин для ее создания, то при публикации новых или изменении существующих материалов XML карта будет обновляться сама.

  • Константин
    Опубликовано: 12.10.2015 Ответить на сообщение

    Ок! Понял. Спасибо! Удачи!

  • любовь
    Опубликовано: 17.02.2016 Ответить на сообщение

    ноутбук работает.но немогу выйти на сайт одноклассники и на свою страничку..показывает что не могу зайти из за robots.txt что нужно зделать чтобы зайти на сайт одноклассники....подскажите.пожалусто.

  • Надя
    Опубликовано: 13.04.2016 Ответить на сообщение

    Костя, здравствуйте!
    У меня непонятки с прописыванием host в robote , прописываю домен и с https и без , все рано all seo pack сигналит красным, о том что это недопустимое значение, прописывала как у вас просто seven-squares.com и с https и все равно недопустимое значение. Может я гоню, но что это за хост такой?

    • Константин Хмелев
      Опубликовано: 13.04.2016 Ответить на сообщение

      Здравствуйте. Host прописывается только так, как дано в моем примере. Сделайте так и не мучайтесь. Я вообще советую никогда не обращать внимание на рекомендации всяких плагинов, а руководствоваться лишь своими знаниями и опытом других людей. Есть множество плагинов, где даются всякие рекомендации и делаются анализы сайта, но они только и делают, что заставляют делать действия, приводящие к санкциям поисковых систем.

  • Галина
    Опубликовано: 16.04.2016 Ответить на сообщение

    Добрый вечер. Константин воспользовалась Вашим файлом robots. Спасибо Вам. Я вообще новичок. Все приходится делать методом проб и ошибок.

  • Паровар
    Опубликовано: 01.02.2017 Ответить на сообщение

    Константин, нужна помощь.

    С вордпресс работаю первый раз.

    Начитался гуру и сделал ошибку, несмотря на уникальность текста, страницы не индексируются.

    А те что индексируются - выглядят
    домен/категория
    хотя я создаю
    домен/название статьи

    Скорее всего ошибка в роботс либо в настройках сео плагина

    Заранее благодарен

    • Константин Хмелев
      Опубликовано: 04.02.2017 Ответить на сообщение

      Мой роботс работает для инфосайтов. Про другие типы сайтов ничего говорить не могу. Лучше всего сделайте самый простой чистый файл роботс без каких-либо запретов и посмотрите, проиндексируется ли сайт.

  • Анна
    Опубликовано: 12.02.2017 Ответить на сообщение

    Костя, здравствуйте. Я снова к вам. В прошлом году, когда создавала первый сайт, все настройки сделала без проблем. Теперь на новом сайте меня глючит. robots.txt вообще не могу настроить. Вопрос: как его загрузить в файловый менеджер FileZilla? И как изменить (добавить директивы) на старом сайте? Заранее спасибо за ответ. Я уже четвертый день в пробке. вытащите меня, пожалуйста!

    • Анна
      Опубликовано: 12.02.2017 Ответить на сообщение

      Все. Почистила корзину в голове, сразу память восстановилась. Все нормуль. Простите за беспокойство. Спасибо.

  • Татьяна
    Опубликовано: 26.03.2017 Ответить на сообщение

    Ребятушки, всех приветствую! Я новичок в данном вопросе, поэтому прошу у Вас помощи!
    Во-первых, мне очень непонятно, почему внутренние ссылки запрещены к индексированию или не существуют, это написано в яндекс вебмастере.
    И второй вопрос: очень много в индексе стоит страничек, которые имеют такую запись: attachment, например, http://krasotaiya.ru/uxod-za-soboj/volosy-i-ya/maski-dlya-volos/maska-protiv-vypadeniya-volos/attachment/dop2-1418751622/. Если я правильно понимаю, то это индексируются так картинки? Я буду Вам очень благодарна за помощь!

    • Константин Хмелев
      Опубликовано: 29.03.2017 Ответить на сообщение

      Это проблема в вашем роботсе, и возможно в настройках сайта в целом. поставьте мой роботс, с ним таких проблем нет. Ошибки в вебмастере - вам никто не оветит на этот вопрос, заходите на эти страницы и смотрите, что с ними не так. При правильной настройке сайта, там всегда будут подобные страницы (например, страницы пагинации вида page1, page2 и т.д.)

  • Maka
    Опубликовано: 13.04.2017 Ответить на сообщение

    Добавил все, как у вас, но опять пишет
    "Описание недоступно из-за ограничений в файле robots.txt."

    В чем может быть проблема?

    • Константин Хмелев
      Опубликовано: 13.04.2017 Ответить на сообщение

      Переиндексация страниц и сайта в целом может занимать несколько месяцев. Нужно ждать.

  • seoonly.ru
    Опубликовано: 19.07.2018 Ответить на сообщение

    Спасибо! Помогло)) теперь на всех сайтах хоть нормальные файлы сделаю.

Имя
Укажите своё имя и фамилию
E-mail
Без СПАМа, обещаем
Текст сообщения
Отправляя данную форму, вы соглашаетесь с политикой конфиденциальности и правилами нашего сайта.