Здравствуйте, дорогие читатели SeoKos.ru! Наша сегодняшняя тема — Как сделать правильный robots.txt Если кто-то еще не знает, что это такое — читать данный пост обязательно! Здесь Вы найдете что это такое файл robots.txt Для чего он нужен и как правильно заполнить...
Я думал данная тема уже давно разжевана и трудностей возникать не должно, но не тут то было. Буквально вчера мне на почту пришло письмо с просьбой написать как правильно заполнять файл robots.txt Что вообще там нужно писать и как.
Я понимаю его, ведь полгода назад сам не знал про данный файл ничего. У меня он был, но был не заполнен вообще! Как так, сейчас сам удивляюсь. Позже узнал о нем, мало-мало заполнил и радовался. Но опять же не тут то было, я заполнил его неправильно!
Пришлось было искать информацию по этому поводу, к счастью вебмастеров в интернете сейчас «пруд пруди», поэтому трудностей не возникло. Я заполнил правильный robots.txt Хотя, после этого я вновь несколько раз заходил туда и менял. Вскоре все же сделал все правильно и теперь хочу научить Вас.
В начале я напишу, что такое robots.txt Потом подробно опишу как его правильно настроить. Настраивать мы будем поэтапно и с подробностями. Приступаем!
Файл robots.txt
Файл robots.txt служит для пояснения поисковым системах действий, которые следует выполнять с Вашим сайтом, блогом при индексации. То есть это некая инструкция, по которой поисковые системы буду работать с Вашим ресурсом при индексации. Это я постарался объяснить более менее понятным для всех языков. Теперь же давайте обратимся к Webeffector'у:
Robots.txt — стопроцентное оправдание своего названия, являясь инструкцией для поисковых роботов. Файл robots.txt вносится корневую папку сайта и управляет поведением поисковых роботов, главным образом, запрещая индексацию той или иной части сайта.
Если Вам интересна история возникновения этого файла, можете прочитать здесь. Я решил не этого не писать, дабы это интересно не всем!
Для чего нужен robots.txt?
Я уже написал ранее, данный файл служит для управления индексацией Вашего ресурса. При отсутствии или не правильном заполнении робот.txt можно лишится не только трафика с поисковых системах, а также не уважения с их стороны и даже фильтра.
В данном файле прописываются команды для индексации. Например, какую страницу или категорию индексировать, а какую нет.
Лишится трафика можно при неправильном заполнении, т.е. если случайно добавить целую категорию в запрет при индексации (как это обойти будет написано ниже). Или вообще закроете весь сайт целиком. Поэтому к заполнению данного файла нужно отнестись серьезно!
Также из-за неправильного заполнения можно получить фильтр (бан) от ПС. Как это? Очень просто, некоторые шаблоны, движки сайтов оставляют дубли (копии) страниц. А если в поиске много одинаковых страниц, значит ПС думают, что это копипаст. Значит сайт плохой и опускает его позиции, а то и вовсе удаляет из поиска... Поэтому, что избежать этого нужно правильно заполнить файл robots.txt
Правильный robots.txt
Давайте разберем каждую директиву отдельно, а позже весь файл целиком. Благодаря этому Вы поймете суть настройки и позже сами сможете управлять им.
User-agent: — данная строка указывает с каким роботом будет работать инструкция
В нее можно прописать следующие значения:
* — все ПС будут видеть и читать инструкцию. Получается User-agent: *
Yandex — инструкцию будет воспринимать один лишь Яндекс. Получается User-agent: Yandex
Это самый популярные и востребованные значения для данной строки. Если Вам нужна какая-то другая ПС, то напишите об этом в комментариях к данной статье.
Прошу заметить, что если Вы указываете конкретного робота какой-то ПС, то данная поисковая система не будет обращать внимание на User-agent: *
Disallow — данная строка (директива) отвечает за то, какие файлы, страницы или категории запрещать при индексации. То есть:
Disallow: /test/ - обозначает запрет индексации папки test
Disallow: /demo — обозначает запрет всего, что начинается на слово demo
Allow — данная строка (директива) отвечает за то, какие файлы, страницы или категории будут разрешаться при индексации ПС. Тут похожая ситуация:
Allow: /test2/ - обозначает разрешение индексации папки test2
Allow: /demo2 — обозначает разрешение всего, что начинается на слово demo2
Если директивы Disallow и Allow оставить пустыми, то будут, соответственно разрешаться все или запрещаться все.
Sitemap — очень важная директива, она отвечает за расположение файла sitemap.xml то есть карты сайта (для увеличения индексации сайта) и прописывается следующим образом:
Sitemap: http://ваш сайт.ru/sitemap.xml.gz
Sitemap: http://ваш сайт.ru/sitemap.xml
Host — в данной директиве нужно вписать адрес Вашего ресурса. Если у Вас есть зеркало сайта, то тут нужно вписать адрес, который у Вас главный! Это нужно для того, чтобы ПС склеили эти ресурсы и считали его за один. Пишется после Disallow и Allow
Host: seokos.ru
Clean-param — данная директива применяется очень редка и служит для установления задержки между закачкой страниц для снижения нагрузки на сервер. Измеряется в секундах и выглядит так:
Clean-param: 6
Вот эти самые главные директивы, которые используются на Всех сайтах, кроме Clean-param он используется довольно редко...
Из всего выше сказанного уже можно составить полноценный файл robots.txt
Если Вы работаете на системе WordPress, то Ваш файл будет выглядеть примерно следующим образом:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?replytocom Disallow: /*?* Disallow: /*? Disallow: /tag User-agent: Yandex Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: */trackback Disallow: */*/trackback Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: /*?replytocom Disallow: /*?* Disallow: /*? Disallow: /tag Host: seokos.ru Sitemap: Sitemap: https://seokos.ru/sitemap.xml
Данный robots.txt используется на данном блоге. Все отлично работает, с ПС не конфликтует, индексация проходит на ура. Поэтому можете смело создавать файл, копировать туда пример выше и сохранять на хостинге. Только не забудьте вместо моего адреса сайта вписать Ваш!
Сделать анализ robots.txt можно сделать в Яндекс. Вебмастер. Для этого переходим по ссылке. Выбираем нужный сайт, переходим в раздел Настройка индексирования - Анализ robots.txt
Далее нажимаем Загрузить robots.txt с сайта и на кнопку Проверить. После чего страница обновляется и внизу показывается список запрещенных и разрешенных файлов. Если все в порядке, как Вам нужно, можете кричать ура. Если же нет, повторите этапы выше снова и проведите повторную проверку. После успешного составления файла robots.txt в глазах ПС Ваш интернет-ресурс будет выглядеть еще лучше и доверчивей.
На этом у меня все. Теперь мы умеем делать правильный robots.txt и знаем, что это такое! Всем спасибо за внимание! До скорого!
А Вы настроили свой robots.txt?
[social_votes]
С уважением, Томский школьник!
автор блога SeoKos.RU
Рубрика: Настройка блога
Старенький файл. Кстати, несколько раз кое-что доделывал
Сколько не пытаюсь усовершенствовать этот файл, но гугл похоже запретов на индексацию в упор не видит 🙂
Я полгода без этого файла работал.
Я где-то читал, может быть это не очень правдивая история, но гугл сначала все хавает, даже все запрещенное, а вот потом запрещенку выкидывает и больше не кушает 🙂
alf2012:
Сколько не пытаюсь усовершенствовать этот файл, но гугл похоже запретов на индексацию в упор не видит
Константин, я в этом деле не ахти какой специалист, но позволь спросить, здесь у Тебя все правильно написано?
Allow — данная строка (директива) отвечает за то, какие файлы, страницы или категории будут разрешаться при индексации ПС. Тут похожая ситуация:
Disallow: /test2/ — обозначает разрешение индексации папки test2
Disallow: /demo2 — обозначает разрешение всего, что начинается на слово demo2
Александр, Спасибо! Действительно допустил ошибку...( Извеняюсь перед Всеми. Уже исправил!
Вот, теперь всем будет счастье. К слову сказать, предлагаемый файл, полностью отвечает потребностям любого молодого Блога. Для начала такого с головой хватит.
Так и не могу найти нормального руководства по созданию этого файла, где описаны все функции.
Несомненно, файл robots.txt очень важный файлик, о котором должен знать абсолютно любой блоггер. У меня когда-то вирус завелся на сайте, и короче случилось такое, что файл robots.txt стал полностью пустым, до сих пор не понимаю как такое возможно, но не факт. В общем, заметил я это поздно, и в индекс попало около 800 лишних страниц :(. Слава богу сейчас уже все нормально :). Спасибо за статью!!!
Я вот тоже, Михаил, такое слышал. Даже не слышал, а мне один очень опытный блоггер сказал.
Google глубоко плевать на robots, по началу в индекс залетает абсолютно все.
Ну и рассказал Ты историю. Я с перепугу «побежал» свой файл смотреть, вроде нормально все. Но все равно спасибо, теперь буду поглядывать иногда. 😯
Какие запреты не прописываю — а разница между страницами в яндексе и гугле 1 к 4 остается 🙁
alf2012, К сожалению, у всех так =(
Я как то не заморачивался на сщет этой темы просто поставил плагин на вордресе и все и нелезу туда больше и траф с поисковиков идет и индексацич вроде нормальная 😆
прикольно)) а я так не могу
Этот вариант файла хорошо работает на моем блоге. Можете смело его устанавливать на свой сайт.
Костя, а что это означает Disallow: /*?replytocom
И вот это Disallow: /tag
Людмила Винокурова, Disallow: /*?replytocom — обозначает закрытие доступа к страницам, где употребляется replytocom. А этот самый префикс replytocom оставляется вместе с комментариями на некоторых темах. Так называемые дублированные комментарии...
Disallow: /tag — данная строка запрещает индексацию всех тегов Вашего блога. Это действительно лишнее!
Ой, Костя, объясни ,плиз, подробнее. Ты говоришь ,что закрывается страница, т.е. если replytocom оставлен с комментарием на какую-то статью, то статья закроется от индекса?
Или я что-то не так поняла?
Людмила Винокурова, Нет! Сама статья не закроется от индексирования. Будет лишь запрещены ее (страницы) дубли. Т.е. копии этих страниц, которые содержат replytocom. А сама изначальная страница будет индексироваться
С Disallow: /*?replytocom вообще целая проблема, т.к. все эти страницы висят в «соплях» гугла! После долгого изучения вопроса пришёл к неожиданному выводу, что нужно писать
Allow: /*?replytocom
Потому что на страницах /replytocom используется метатэг robots=noindex,nofollow и тэг canonical. Таким образом можно избежать попадения этих страниц в «сопли».
Алексей Виноградов, А я не знал. Сам мучаюсь с этими дублями... Спасибо, буду пробовать!
Спасибо ,Костя, теперь всё встаёт на свои места
😛
Гугл , конечно, быстрее и оперативнее Яндекса индексирует, но в основной выдаче Гугла находятся не все проиндексированные страницы , Вот , например, в данный момент на этом блоге в основной выдаче Гугла находится только 10% страниц.
Приветствую автора! Это некий шаблонный вариант robots.txt с минимальным набором, под каждый блог составляется свой индивидуальный robots...
Например : /*?replytocom мне уже не подходит, так как я использую другую форму комментирования.
Приветствую, несколько вопросов:
— пустая строчка перед Hosts нужна?
— Яндекс не проиндексировал запись /?p=132, выдал, что запрещено в файле роботс, у меня точно такой же файл, сейчас думаю какая строчка лишняя?
Андрей, 1) Пустую строчку можно как оставить, так и убрать. Конечно, чем меньше пробелом, тем лучше! Но я сильных проблем не заметил.
2) Значит Вам нужно убрать две строчки Disallow: /*?* и Disallow: /*?
Здравствуйте! Я недавно создал свой блог на WordPress. На одном из сайтов скопировал robots и вставил на свой блог. В нем отсутствуют такие строки:
Disallow: /*?replytocom
Disallow: /*?
Disallow: /tag
Остальное все как у Вас. Эти строки обязательны или без них можно обойтись? ❓
Сергей, Можно обойтись и без них. Но лучше все же вписать, хуже от этого не будет. А наоборот! будет меньше ненужных страниц в индексе!
А лучше настроить ЧПУ (постоянные ссылки), чтобы ссылка не имела такой вид ?p=132
А у меня, наоборот, Яндекс очень быстро индексирует, а Гугл как-то тормозит. 😐
Константин, а вот подскажи,если я хочу закрыть сайдбар от индексации, то как это сделать в файле robots.txt
Александр, Хороший вопрос. Я думаю, что в файле robots.txt сайдбар не закрыть... Только в ручную с помощью тегов
<noindex></noindex>
или для футера действует<!--noindex--><!--/noindex-->
Я закрыл весь сайдбар тегами . А при проверке в cy-pr.com выдает ошибку файла.
Правильно составленный файл robots.txt, является залог успешной индексации вашего сайта
Здравствуй Костик. У меня при проверки вылезло User-agent: Yandex
Disallow: /cgi-bin
Что это означает?
Файл конечно то помогает во многом, что качается индексации, то уж точно, вот только гуглу видимо в последнее время на него как-то по...
Спасибо за файл. Установила себе, а то выбивались все какие-то ошибки, а для исправления знаний не хватает. Все отлично работает!
Я рад, что получилось Вам помочь! Заходите еще.
Константин, большое спасибо за статью!
У меня вопрос: я делаю по инструкции, как ты написал, но никакого списка разрешенных и запрещенных страниц внизу не вижу, только это:
Используемые секции
Строка
19-38
User-agent: Yandex
Disallow: /cgi-bin
...
Sitemap: http:///sitemap.xml
Повторил несколько раз, ничего не меняется. Я что-то не так сделал?
Правильно делаете, Константин, что разъясняете такие важные темы.
У меня этот файл robots.txt есть, но у кого-то механически, без понимания, скопированный. А чтобы настроить правильно — не хватало знаний. Теперь вот я их получила — буду исправляться!
Всё в файле роботс проверяется методом тыка)
Молодец. Самая подробная инструкция. Ещё есть User-agent: Googlebot — он тоже важен.
да с этим лучше не шутить и сразу создать себе такой файл иначе это может довести до фатальности…
Отличная статья, огромное спасибо !!!
Спасибо, вроде всё сделал, как сказали, буду ждать результатов!
Я что-то у себя не обнаружила такого файла.Хотела загрузить,но не знаю как.
Посмотрела, сравнила. Почти так же у меня. только здесь больше запретов. И вот я не знаю,что такое первая строчка после агента? И в конце три записи? И что за с двумя точками?