Получайте секретные материалы проекта на свой E-Mail:

Файл robots.txt — Правильная индексация

Здравствуйте, дорогие читатели SeoKos.ru! Наша сегодняшняя тема — Как сделать правильный robots.txt Если кто-то еще не знает, что это такое — читать данный пост обязательно! Здесь Вы найдете что это такое файл robots.txt Для чего он нужен и как правильно заполнить...Как сделать правильный файл robots.txt

Я думал данная тема уже давно разжевана и трудностей возникать не должно, но не тут то было. Буквально вчера мне на почту пришло письмо с просьбой написать как правильно заполнять файл robots.txt Что вообще там нужно писать и как.

Я понимаю его, ведь полгода назад сам не знал про данный файл ничего. У меня он был, но был не заполнен вообще! Как так, сейчас сам удивляюсь. Позже узнал о нем, мало-мало заполнил и радовался. Но опять же не тут то было, я заполнил его неправильно!

Пришлось было искать информацию по этому поводу, к счастью вебмастеров в интернете сейчас «пруд пруди», поэтому трудностей не возникло. Я заполнил правильный robots.txt Хотя, после этого я вновь несколько раз заходил туда и менял. Вскоре все же сделал все правильно и теперь хочу научить Вас.

В начале я напишу, что такое robots.txt Потом подробно опишу как его правильно настроить. Настраивать мы будем поэтапно и с подробностями. Приступаем!

Файл robots.txt

Файл robots.txt служит для пояснения поисковым системах действий, которые следует выполнять с Вашим сайтом, блогом при индексации. То есть это некая инструкция, по которой поисковые системы буду работать с Вашим ресурсом при индексации. Это я постарался объяснить более менее понятным для всех языков. Теперь же давайте обратимся к Webeffector'у:

Robots.txt — стопроцентное оправдание своего названия, являясь инструкцией для поисковых роботов. Файл robots.txt вносится корневую папку сайта и управляет поведением поисковых роботов, главным образом, запрещая индексацию той или иной части сайта.

Если Вам интересна история возникновения этого файла, можете прочитать здесь. Я решил не этого не писать, дабы это интересно не всем!

Для чего нужен robots.txt?

robots.txt для WordPressЯ уже написал ранее, данный файл служит для управления индексацией Вашего ресурса. При отсутствии или не правильном заполнении робот.txt можно лишится не только трафика с поисковых системах, а также не уважения с их стороны и даже фильтра.

В данном файле прописываются команды для индексации. Например, какую страницу или категорию индексировать, а какую нет.

Лишится трафика можно при неправильном заполнении, т.е. если случайно добавить целую категорию в запрет при индексации (как это обойти будет написано ниже). Или вообще закроете весь сайт целиком. Поэтому к заполнению данного файла нужно отнестись серьезно!

Также из-за неправильного заполнения можно получить фильтр (бан) от ПС. Как это? Очень просто, некоторые шаблоны, движки сайтов оставляют дубли (копии) страниц. А если в поиске много одинаковых страниц, значит ПС думают, что это копипаст. Значит сайт плохой и опускает его позиции, а то и вовсе удаляет из поиска... Поэтому, что избежать этого нужно правильно заполнить файл robots.txt

Правильный robots.txt

Давайте разберем каждую директиву отдельно, а позже весь файл целиком. Благодаря этому Вы поймете суть настройки и позже сами сможете управлять им.

User-agent: — данная строка указывает с каким роботом будет работать инструкция

В нее можно прописать следующие значения:

* — все ПС будут видеть и читать инструкцию. Получается User-agent: *

 Yandex — инструкцию будет воспринимать один лишь Яндекс. Получается User-agent: Yandex

 Это самый популярные и востребованные значения для данной строки. Если Вам нужна какая-то другая ПС, то напишите об этом в комментариях к данной статье.

Прошу заметить, что если Вы указываете конкретного робота какой-то ПС, то данная поисковая система не будет обращать внимание на User-agent: *

Disallow — данная строка (директива) отвечает за то, какие файлы, страницы или категории запрещать при индексации. То есть:

Disallow: /test/ - обозначает запрет индексации папки test

Disallow: /demo — обозначает запрет всего, что начинается на слово demo

Allow — данная строка (директива) отвечает за то, какие файлы, страницы или категории будут разрешаться при индексации ПС. Тут похожая ситуация:

Allow: /test2/ - обозначает разрешение индексации папки test2

Allow: /demo2 — обозначает разрешение всего, что начинается на слово demo2

Если директивы Disallow и Allow оставить пустыми, то будут, соответственно разрешаться все или запрещаться все.

Sitemap — очень важная директива, она отвечает за расположение файла sitemap.xml то есть карты сайта (для увеличения индексации сайта) и прописывается следующим образом:

Sitemap: http://ваш сайт.ru/sitemap.xml.gz

Sitemap: http://ваш сайт.ru/sitemap.xml

Host — в данной директиве нужно вписать адрес Вашего ресурса. Если у Вас есть зеркало сайта, то тут нужно вписать адрес, который у Вас главный! Это нужно для того, чтобы ПС склеили эти ресурсы и считали его за один. Пишется после Disallow и Allow

Host: seokos.ru

Clean-param — данная директива применяется очень редка и служит для установления задержки между закачкой страниц для снижения нагрузки на сервер. Измеряется в секундах и выглядит так:

Clean-param: 6

Вот эти самые главные директивы, которые используются на Всех сайтах, кроме Clean-param он используется довольно редко...

Из всего выше сказанного уже можно составить полноценный файл robots.txt 

Если Вы работаете на системе WordPress, то Ваш файл будет выглядеть примерно следующим образом:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?replytocom
Disallow: /*?*
Disallow: /*?
Disallow: /tag

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?replytocom
Disallow: /*?*
Disallow: /*?
Disallow: /tag
Host: seokos.ru
Sitemap:
Sitemap: //seokos.ru/sitemap.xml

Данный robots.txt используется на данном блоге. Все отлично работает, с ПС не конфликтует, индексация проходит на ура. Поэтому можете смело создавать файл, копировать туда пример выше и сохранять на хостинге. Только не забудьте вместо моего адреса сайта вписать Ваш!

Сделать анализ robots.txt можно сделать в Яндекс. Вебмастер. Для этого переходим по ссылке. Выбираем нужный сайт, переходим в раздел Настройка индексированияАнализ robots.txt

Далее нажимаем Загрузить robots.txt с сайта и на кнопку Проверить. После чего страница обновляется и внизу показывается список запрещенных и разрешенных файлов. Если все в порядке, как Вам нужно, можете кричать ура. Если же нет, повторите этапы выше снова и проведите повторную проверку. После успешного составления файла robots.txt в глазах ПС Ваш интернет-ресурс будет выглядеть еще лучше и доверчивей.

На этом у меня все. Теперь мы умеем делать правильный robots.txt и знаем, что это такое! Всем спасибо за внимание! До скорого!

А Вы настроили свой robots.txt?

[social_votes]

С уважением, Томский школьник!

Карта сайта



style="display:inline-block;width:630px;height:90px"
data-ad-client="ca-pub-0353732343318230"
data-ad-slot="3060350256">

Белан Константин Сергеевич

С уважением, Константин Белан.

Рабочая 634570 Россия, Томская обл., г. Томск, +7 952 160 36 17
Сделайте мне приятно - нажмите на любую из кнопок:
Подпишитесь на рассылку блога и получайте новые статьи на свою почту
Количество комментариев к данной статье: 49
  1. Старенький файл. Кстати, несколько раз кое-что доделывал

  2. Ответить

    Сколько не пытаюсь усовершенствовать этот файл, но гугл похоже запретов на индексацию в упор не видит 🙂

  3. Я полгода без этого файла работал.

  4. Я где-то читал, может быть это не очень правдивая история, но гугл сначала все хавает, даже все запрещенное, а вот потом запрещенку выкидывает и больше не кушает 🙂

    alf2012:

    Сколько не пытаюсь усовершенствовать этот файл, но гугл похоже запретов на индексацию в упор не видит

  5. Константин, я в этом деле не ахти какой специалист, но позволь спросить, здесь у Тебя все правильно написано?

    Allow — данная строка (директива) отвечает за то, какие файлы, страницы или категории будут разрешаться при индексации ПС. Тут похожая ситуация:

    Disallow: /test2/ — обозначает разрешение индексации папки test2

    Disallow: /demo2 — обозначает разрешение всего, что начинается на слово demo2

    • Александр, Спасибо! Действительно допустил ошибку...( Извеняюсь перед Всеми. Уже исправил!

  6. Вот, теперь всем будет счастье. К слову сказать, предлагаемый файл, полностью отвечает потребностям любого молодого Блога. Для начала такого с головой хватит.

  7. Так и не могу найти нормального руководства по созданию этого файла, где описаны все функции.

  8. Несомненно, файл robots.txt очень важный файлик, о котором должен знать абсолютно любой блоггер. У меня когда-то вирус завелся на сайте, и короче случилось такое, что файл robots.txt стал полностью пустым, до сих пор не понимаю как такое возможно, но не факт. В общем, заметил я это поздно, и в индекс попало около 800 лишних страниц :(. Слава богу сейчас уже все нормально :). Спасибо за статью!!!

  9. Ответить

    Я вот тоже, Михаил, такое слышал. Даже не слышал, а мне один очень опытный блоггер сказал.

  10. Ответить

    Google глубоко плевать на robots, по началу в индекс залетает абсолютно все.

  11. Виталий:

    У меня когда-то вирус завелся на сайте, и короче случилось такое, что файл robots.txt стал полностью пустым, до сих пор не понимаю как такое возможно, но не факт. В общем, заметил я это поздно, и в индекс попало около 800 лишних страниц .

    Ну и рассказал Ты историю. Я с перепугу «побежал» свой файл смотреть, вроде нормально все. Но все равно спасибо, теперь буду поглядывать иногда. 😯

  12. Ответить

    Мишко:

    Я где-то читал, может быть это не очень правдивая история, но гугл сначала все хавает, даже все запрещенное, а вот потом запрещенку выкидывает и больше не кушает

    alf2012:

    Сколько не пытаюсь усовершенствовать этот файл, но гугл похоже запретов на индексацию в упор не видит

    Какие запреты не прописываю — а разница между страницами в яндексе и гугле 1 к 4 остается 🙁

    • alf2012, К сожалению, у всех так =(

  13. Ответить

    Я как то не заморачивался на сщет этой темы просто поставил плагин на вордресе и все и нелезу туда больше и траф с поисковиков идет и индексацич вроде нормальная 😆

    • прикольно)) а я так не могу

  14. Ответить

    Этот вариант файла хорошо работает на моем блоге. Можете смело его устанавливать на свой сайт.

  15. Ответить

    Костя, а что это означает Disallow: /*?replytocom

    И вот это Disallow: /tag

    • Людмила Винокурова, Disallow: /*?replytocom — обозначает закрытие доступа к страницам, где употребляется replytocom. А этот самый префикс replytocom оставляется вместе с комментариями на некоторых темах. Так называемые дублированные комментарии...

      Disallow: /tag — данная строка запрещает индексацию всех тегов Вашего блога. Это действительно лишнее!

  16. Ответить

    admin:

    Людмила Винокурова, Disallow: /*?replytocom — обозначает закрытие доступа к страницам, где употребляется replytocom. А этот самый префикс replytocom оставляется вместе с комментариями на некоторых темах. Так называемые дублированные комментарии...

    Disallow: /tag — данная строка запрещает индексацию всех тегов Вашего блога. Это действительно лишнее!

    Ой, Костя, объясни ,плиз, подробнее. Ты говоришь ,что закрывается страница, т.е. если replytocom оставлен с комментарием на какую-то статью, то статья закроется от индекса?

    Или я что-то не так поняла?

    • Людмила Винокурова, Нет! Сама статья не закроется от индексирования. Будет лишь запрещены ее (страницы) дубли. Т.е. копии этих страниц, которые содержат replytocom. А сама изначальная страница будет индексироваться

  17. Ответить

    С Disallow: /*?replytocom вообще целая проблема, т.к. все эти страницы висят в «соплях» гугла! После долгого изучения вопроса пришёл к неожиданному выводу, что нужно писать

    Allow: /*?replytocom

    Потому что на страницах /replytocom используется метатэг robots=noindex,nofollow и тэг canonical. Таким образом можно избежать попадения этих страниц в «сопли».

    • Алексей Виноградов, А я не знал. Сам мучаюсь с этими дублями... Спасибо, буду пробовать!

  18. Ответить

    admin:

    Людмила Винокурова, Нет! Сама статья не закроется от индексирования. Будет лишь запрещены ее (страницы) дубли. Т.е. копии этих страниц, которые содержат replytocom. А сама изначальная страница будет индексироваться

    Спасибо ,Костя, теперь всё встаёт на свои места

    😛

  19. Ответить

    alf2012:

    Сколько не пытаюсь усовершенствовать этот файл, но гугл похоже запретов на индексацию в упор не видит

    Гугл , конечно, быстрее и оперативнее Яндекса индексирует, но в основной выдаче Гугла находятся не все проиндексированные страницы , Вот , например, в данный момент на этом блоге в основной выдаче Гугла находится только 10% страниц.

  20. Ответить

    Приветствую автора! Это некий шаблонный вариант robots.txt с минимальным набором, под каждый блог составляется свой индивидуальный robots...

    Например : /*?replytocom мне уже не подходит, так как я использую другую форму комментирования.

  21. Приветствую, несколько вопросов:

    — пустая строчка перед Hosts нужна?

    — Яндекс не проиндексировал запись /?p=132, выдал, что запрещено в файле роботс, у меня точно такой же файл, сейчас думаю какая строчка лишняя?

    • Андрей, 1) Пустую строчку можно как оставить, так и убрать. Конечно, чем меньше пробелом, тем лучше! Но я сильных проблем не заметил.

      2) Значит Вам нужно убрать две строчки Disallow: /*?* и Disallow: /*?

  22. Ответить

    Здравствуйте! Я недавно создал свой блог на WordPress. На одном из сайтов скопировал robots и вставил на свой блог. В нем отсутствуют такие строки:

    Disallow: /*?replytocom

    Disallow: /*?

    Disallow: /tag

    Остальное все как у Вас. Эти строки обязательны или без них можно обойтись? ❓

    • Сергей, Можно обойтись и без них. Но лучше все же вписать, хуже от этого не будет. А наоборот! будет меньше ненужных страниц в индексе!

  23. Ответить

    admin:

    Андрей, 1) Пустую строчку можно как оставить, так и убрать. Конечно, чем меньше пробелом, тем лучше! Но я сильных проблем не заметил.2) Значит Вам нужно убрать две строчки Disallow: /*?* и Disallow: /*?

    А лучше настроить ЧПУ (постоянные ссылки), чтобы ссылка не имела такой вид ?p=132

  24. Ответить

    Елена:

    alf2012:

    Сколько не пытаюсь усовершенствовать этот файл, но гугл похоже запретов на индексацию в упор не видит

    Гугл , конечно, быстрее и оперативнее Яндекса индексирует, но в основной выдаче Гугла находятся не все проиндексированные страницы , Вот , например, в данный момент на этом блоге в основной выдаче Гугла находится только 10% страниц.

    А у меня, наоборот, Яндекс очень быстро индексирует, а Гугл как-то тормозит. 😐

  25. Константин, а вот подскажи,если я хочу закрыть сайдбар от индексации, то как это сделать в файле robots.txt

    • Александр, Хороший вопрос. Я думаю, что в файле robots.txt сайдбар не закрыть... Только в ручную с помощью тегов <noindex></noindex> или для футера действует <!--noindex--><!--/noindex-->

  26. Я закрыл весь сайдбар тегами . А при проверке в cy-pr.com выдает ошибку файла.

  27. Правильно составленный файл robots.txt, является залог успешной индексации вашего сайта

  28. Здравствуй Костик. У меня при проверки вылезло User-agent: Yandex

    Disallow: /cgi-bin

    Что это означает?

  29. Файл конечно то помогает во многом, что качается индексации, то уж точно, вот только гуглу видимо в последнее время на него как-то по...

  30. Ответить

    Спасибо за файл. Установила себе, а то выбивались все какие-то ошибки, а для исправления знаний не хватает. Все отлично работает!

    • Я рад, что получилось Вам помочь! Заходите еще.

  31. Константин, большое спасибо за статью!

    У меня вопрос: я делаю по инструкции, как ты написал, но никакого списка разрешенных и запрещенных страниц внизу не вижу, только это:

    Используемые секции

    Строка

    19-38

    User-agent: Yandex

    Disallow: /cgi-bin

    ...

    Sitemap: http:///sitemap.xml

    Повторил несколько раз, ничего не меняется. Я что-то не так сделал?

  32. Ответить

    Правильно делаете, Константин, что разъясняете такие важные темы.

    У меня этот файл robots.txt есть, но у кого-то механически, без понимания, скопированный. А чтобы настроить правильно — не хватало знаний. Теперь вот я их получила — буду исправляться!

  33. Всё в файле роботс проверяется методом тыка)

  34. Ответить

    Молодец. Самая подробная инструкция. Ещё есть User-agent: Googlebot — он тоже важен.

  35. да с этим лучше не шутить и сразу создать себе такой файл иначе это может довести до фатальности…

  36. Отличная статья, огромное спасибо !!!

  37. Спасибо, вроде всё сделал, как сказали, буду ждать результатов!

  38. Ответить

    Я что-то у себя не обнаружила такого файла.Хотела загрузить,но не знаю как.

  39. Ответить

    Посмотрела, сравнила. Почти так же у меня. только здесь больше запретов. И вот я не знаю,что такое первая строчка после агента? И в конце три записи? И что за с двумя точками?