Не Забывайте Прописать Host В robots.txt

avatar

С завидно регулярностью на seo-форумах всплывает тема от новичков: почему страницы сайта в индексе Яндекса показываются с www и без? Имхо, стоит потратить 10 минут времени и написать ответ на этот тривиальный вопрос.

Для робота Яндекса, имя домена с www и без него две разные вещи, до того момента пока их не склеит другой робот-зеркальщик. А уже, как и когда он это сделает совсем не известно. Также, иногда, вебмастера делают зеркала (дубликаты) сайтов на других хостингах — робот может самостоятельно выбрать главный сайт, а копии не индексировать и выкинуть из индекса. Вдруг он выберет ваш основной домен в качестве жертвы?

Чтобы полностью контролировать ситуацию была придумана директива Host. Она прописывается в файле robots.txt. Если ваш сайт лучше звучит с www или без него, или с www больше входящих ссылок, напишите таким образом:

Host: www.site.ru

или наоборот без www

Host: site.ru

Второй вариант, ИМХО, нравится больше.

Лучше директиву хост прописывать сразу после создания сайта, дабы потом не возникало проблем со ссылками и зеркалами. Полный текст файла для WordPress и робота Яндекса может выглядеть так:

User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /index.php?s=
Host: site.ru

Да, и еще, если вы пропишите что-то типа Host: http://site.ru — работать не будет.

Прочные металлические двери защитят вас и вашу квартиру в Москве.

Такая простая теория поможет на практике избежать многих проблем, например, если сделают копию вашего сайта (я знаю, что ленивые говнюки из sape так делают) и повесят на свой домен, Яндекс при склейке зачтет его как дубликат и в индекс не пропустит.




.

Комментарии (17) к материалу "Не Забывайте Прописать Host В robots.txt"

  1. avatarСержик (23.11.2008 11:46)

    В принципе, для тех, кто может назвать себя СЕО оптимизатором, это является прописной истиной, единственное, что мне не понятно, это, когда прогоняешь сайт по каталогам, как правильно ставить на него ссылку (с www или без него)?

    1. avatarLife4Life (23.11.2008 14:03)

      Растановка имеет значение, если прогонять, то лучше это делать с одним вариантов домена с www или без него во всех случаях.

  2. avatarKorew (23.11.2008 19:11)

    Тысячи сайтов живут без этого robots.txt и все нормально. Так что не это главное. Главное что б сам сайт был сделан для людей.

    1. avatarАндрей Лапенко (23.11.2008 19:22)

      На «народе» тоже тысячи сайтов для людей… Если делаешь серьезный проект, нужно учитывать все детали, ибо конкуренция задушит.

    2. avatarcompleto (03.12.2008 20:22)

      Ага, в этот ап зеркальщика здорово все поналепилось без рроботса, да и с роботсом.
      Яша забил на него и проиндексировал ленту заданий с блогуна, например. Рекламодатели в шоке.

  3. avatarАлексей (02.01.2009 01:07)

    Спасибо.
    Потом посмотрел ваш robots.txt, вынес для себя немного.
    Но вот вопрос, почему вы не указали Sitemap сайта в robots.txt?

    1. avatarАндрей Лапенко (02.01.2009 12:50)

      Я sitemap добавляю через панели Яндекса и Гугла.

  4. avatarJohn (04.03.2009 01:29)

    Спасибо!!! спасли нуба от суицида на мыле, уже не знал что деалть, яша site.ru посчитал зерколом и все выкинул из индекса. теперь думаю ситуация исправится и не буду надоедать Платону с глупыми вопросами

  5. avatarМайкл (09.04.2009 09:50)

    Блин, а я раньше не юзал роботс. Надо составить…

  6. avatarechats.ru (04.09.2009 11:29)

    А кодировка файла robots.txt не имеет значения? Просто насколько я знаю — файл sitemap.xml нужно писать только в UTF-8…

  7. avatarechats.ru (04.09.2009 11:34)

    И ещё один вопрос: не ухудшится ли индексация моего сайта, если поисковики его лучше индексируют с «www», а я в роботсе укажу «хост» без «www»? Просто без www адрес красивее выглядит :)

  8. avatarАндрей Лапенко (04.09.2009 18:46)

    Лучше при создании сайта один раз и навсегда выбрать с “www” или без. Могут быть проблемы с Яшей месяца на 4, если измените. Кодировка лучше UTF-8.

  9. avatarалекс (26.09.2010 16:25)

    Мой сайт например из www стал без него и потерял 10 тиц, вот так вот

  10. avatarAndrey (05.11.2010 14:17)

    был сайт на ucoz`е, с одним именем, раскрутил, ТиЦ=190, PR=3, купил домен, припарковал — слетели все индексы в нули! robots.txt не помогает… и так пробовал, и этак…

  11. Спасибо! Сделал как посоветовали, посмотрим что он покажет, а то уже надоело что 1 сайт воспринимает как несколько :((

  12. avatarКупить камин (13.06.2011 16:30)

    Зеркала это вообще беда ! 8 мес. назад прописал Host но не поставил «: » обнаружил недавно, пофиксил, результат -90% тица

  13. avatarКурткин (09.08.2012 21:05)

    Спасибо! Полезна статья! Я и не думал, что эта ерунда так важна!)
    Буду прописывать robots.txt.

Leave a comment


Я не рассылаю спам! *

Top