Не Забывайте Прописать Host В robots.txt

С завидно регулярностью на seo-форумах всплывает тема от новичков: почему страницы сайта в индексе Яндекса показываются с www и без? Имхо, стоит потратить 10 минут времени и написать ответ на этот тривиальный вопрос.
Для робота Яндекса, имя домена с www и без него две разные вещи, до того момента пока их не склеит другой робот-зеркальщик. А уже, как и когда он это сделает совсем не известно. Также, иногда, вебмастера делают зеркала (дубликаты) сайтов на других хостингах — робот может самостоятельно выбрать главный сайт, а копии не индексировать и выкинуть из индекса. Вдруг он выберет ваш основной домен в качестве жертвы?
Чтобы полностью контролировать ситуацию была придумана директива Host. Она прописывается в файле robots.txt. Если ваш сайт лучше звучит с www или без него, или с www больше входящих ссылок, напишите таким образом:
Host: www.site.ru
или наоборот без www
Host: site.ru
Второй вариант, ИМХО, нравится больше.
Лучше директиву хост прописывать сразу после создания сайта, дабы потом не возникало проблем со ссылками и зеркалами. Полный текст файла для WordPress и робота Яндекса может выглядеть так:
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /index.php?s=
Host: site.ru
Да, и еще, если вы пропишите что-то типа Host: http://site.ru — работать не будет.
Прочные металлические двери защитят вас и вашу квартиру в Москве.
Такая простая теория поможет на практике избежать многих проблем, например, если сделают копию вашего сайта (я знаю, что ленивые говнюки из sape так делают) и повесят на свой домен, Яндекс при склейке зачтет его как дубликат и в индекс не пропустит.
В принципе, для тех, кто может назвать себя СЕО оптимизатором, это является прописной истиной, единственное, что мне не понятно, это, когда прогоняешь сайт по каталогам, как правильно ставить на него ссылку (с www или без него)?
Растановка имеет значение, если прогонять, то лучше это делать с одним вариантов домена с www или без него во всех случаях.
Тысячи сайтов живут без этого robots.txt и все нормально. Так что не это главное. Главное что б сам сайт был сделан для людей.
На «народе» тоже тысячи сайтов для людей… Если делаешь серьезный проект, нужно учитывать все детали, ибо конкуренция задушит.
Ага, в этот ап зеркальщика здорово все поналепилось без рроботса, да и с роботсом.
Яша забил на него и проиндексировал ленту заданий с блогуна, например. Рекламодатели в шоке.
Спасибо.
Потом посмотрел ваш robots.txt, вынес для себя немного.
Но вот вопрос, почему вы не указали Sitemap сайта в robots.txt?
Я sitemap добавляю через панели Яндекса и Гугла.
Спасибо!!! спасли нуба от суицида на мыле, уже не знал что деалть, яша site.ru посчитал зерколом и все выкинул из индекса. теперь думаю ситуация исправится и не буду надоедать Платону с глупыми вопросами
Блин, а я раньше не юзал роботс. Надо составить…
А кодировка файла robots.txt не имеет значения? Просто насколько я знаю — файл sitemap.xml нужно писать только в UTF-8…
И ещё один вопрос: не ухудшится ли индексация моего сайта, если поисковики его лучше индексируют с «www», а я в роботсе укажу «хост» без «www»? Просто без www адрес красивее выглядит :)
Лучше при создании сайта один раз и навсегда выбрать с “www” или без. Могут быть проблемы с Яшей месяца на 4, если измените. Кодировка лучше UTF-8.
Мой сайт например из www стал без него и потерял 10 тиц, вот так вот
был сайт на ucoz`е, с одним именем, раскрутил, ТиЦ=190, PR=3, купил домен, припарковал — слетели все индексы в нули! robots.txt не помогает… и так пробовал, и этак…
Спасибо! Сделал как посоветовали, посмотрим что он покажет, а то уже надоело что 1 сайт воспринимает как несколько :((
Зеркала это вообще беда ! 8 мес. назад прописал Host но не поставил «: » обнаружил недавно, пофиксил, результат -90% тица
Спасибо! Полезна статья! Я и не думал, что эта ерунда так важна!)
Буду прописывать robots.txt.