Главная » Работа над сайтом » WordPress: тонкости, хитрости, секреты » Файл robots.txt для WordPress
- Заходи, гостем дорогим будешь, – примерно по такому принципу вела я свой блог. Не в том смысле, что каждому встречному-поперечному рада была, я имею ввиду роботов поисковых систем, которым было позволено всё – шариться по сайту где и сколько вздумается, сканировать все подряд, тащить в свою базу все, что они посчитают нужным. И все потому, что до поры до времени я даже не задумывалась, что такое индексация и оптимизация сайта, с чем все это едят и для чего они нужны. Лишь когда получила пенделя от Яндекса, который вообще перестал выдавать какие-либо страницы, начала прозревать, а участие в конкурсе на лучший обзор сайта CY-PR.com подвигло меня, наконец, всерьез заняться оптимизацией.
Среди всяких премудростей предстояло мне разобраться с файлом robots.txt, причем не в общих чертах, а конкретно для WordPress, ведь я пользуюсь именно этим движком и значит, должна учитывать его особенности, составляя правильный robots.txt для WordPress. Неправильный у меня уже был. Когда к URL своего сайта я подставила robots.txt (а именно так и нужно делать, если хочешь узнать, что из себя представляет этот файл, то есть в адресную строку браузера нужно вставить такой адрес – http://ваш сайт/robots.txt), то увидела всего пару строчек:
User-agent: *
Disallow:
Мне это ровным счетом ничего не говорило. Пришлось просвещаться. И вот что я узнала.
Оказывается, файл robots.txt придумали для того, чтобы прямо и без обиняков сказать поисковым роботам, куда они могут и должны идти, а куда им свой нос совать не велено, или, если сказать другими словами – в нем указывают параметры индексирования сайта. Когда робот заходит на сайт, он первым делом ищет файл robots.txt и «читает» его. Если файла нет или в нем написана такая же лаконичная запись, которую я обнаружила у себя, роботы считают, что им дали отмашку, зеленый свет, мол, делайте, что хотите. Они и делали. Гугл наиндексировал аж 4 с лишним тысячи страниц, но Яндекс его переплюнул, – роботом было загружено больше 8 тысяч страниц, это при том, что на сайте не наберется и пяти сотен. Понятно, что среди этого мусора и черт ногу сломит, Гугл еще как-то держится, правда, от всех проиндексированных страниц он выдает пользователям лишь 5 процентов, а вот Яндекс решил все самым кардинальным образом, не выдавая вообще ничего. Ну и какой тогда смысл вести блог, если его практически никто не видит? Дальше так продолжаться не могло, я решила изменить ситуацию и указать любопытным роботам их место.
Кстати, если вы тоже хотите проанализировать свой сайт, воспользуйтесь услугами cy-pr.comа – именно здесь можно увидеть, сколько страниц вашего ресурса находится не под фильтрами Гугла. А пообщаться с другими веб-мастерами и найти ответы на вопросы можно на форуме.
Меня могут спросить, а как же плагин для wordpress All in One SEO, который призван помогать в оптимизации блога? Ну что, плагин-то стоит, да толку? В нем можно запретить индексацию категорий, архивов и тэгов. Только этого мало, так что без robots.txt точно не обойтись.
Но чтобы что-то разрешать или запрещать, надо все же знать, что где у вас находится. Не думаю, что многие их тех, кто ведет блог на WordPress, самостоятельно устанавливали этот движок. Тем более, что отныне хостинг-провайдеры, как например, мой TimeWeb, предлагают услуги по установке CMS, так что смысла париться с движком теперь нет. С одной стороны хорошо, мороки меньше, с другой ты даже не подозреваешь, что означают все эти папки и файлы:

Свежие комментарии