Яндексу плевать на robots.txt?

Яндексу плевать на robots.txt?

Я давно замечал, что поисковая система Яндекс, порой игнорирует всем известный тэг noindex, однако не думал, что и robots.txt приписывается сюда же. Выходит, что сама поисковая система противоречит себе. Ведь если заключать текст или те же ссылки в тег noindex, никто не дает гарантии, что спрятанный фрагмент не будет проиндексирован. Еще не дай Бог набраться проблем за счет того, что инструменты от Яндекса попросту не работают.

Ведь смотрите сами. После того, как известный фильтр АГС – 17 начал свое нашествие на сайты, многие вебмастера кинулись закрывать дублирование страниц в теги noindex, либо использовать файл robotx.txt, чтобы исключить возможность индексировать теги, календари, категории сайтов. И тут даже не важно на какой CMS работает сайт, хотя, не спорю, довольно много слышал информации, что от движка может быть бан всего сайта.

Итак, переходим непосредственно к теме вопроса. После того, как мой старый блог вылетел из поисковой выдачи Яндекса, я стал думать, почему так произошло. Банить, вроде бы не за что, однако то, что сайт отсутствовал в выдачи меня стало настораживать, причем очень сильно. Не долго думая я отписался Платонам с просьбой рассмотреть вопрос касательно вылета блога. Ответили мне спустя несколько дней. Кому интересно, можете прочитать об этом на моем блоге.

В письме от Платонов было черным по белому сказано, что с блогом все хорошо и что спустя несколько недель он вернется в индекс. Да, так и получилось, что блог начал медленно, но уверенно снова индексироваться поисковой системой Яндекс.

Однако я задумался, а что если мой блог, не дай Бог вновь вылетит полностью из индекса. Возможно, проблема действительно кроется в незакрытых от индексации метках, категориях? Естественно, я не хотел повторения такой ситуации вновь, поэтому решил запретить индексирование меток, админ части движка WordPress, архива, дабы не попасть под раздачу известных фильтров от Яндекса.

Должен отметить, что многие вебмастера и оптимизаторы говорят, что бояться абсолютно нечего, если площадка старая и трастовая. Не соглашусь, так как с введением фильтра АГС – 17 часть моих сайтов, которым по два и более лет попали под раздачу. Даи на серче по этому поводу информации прозвучало более чем достаточно.

В файле robots.txt я запретил индексирование меток, архивов, админ части. В принципе, вы и сами можете посетить страничку robots.
Казалось бы, что за более чем месяц, поисковая система Яндекс, должна была исключить метки, а также архивы из индекса. Но не тут то было. Насколько я заметил, Яндекс и не собирается этого делать. Видимо, ему настолько понравились метки моего блога, что он попросту не хочет исключат их из индекса.

Сперва я думал, что это глюк, однако перед тем, как создавать Я – блоггер, я создал файл robots.txt, в котором также исключил возможность индексирования меток, архивов. Собственно вы и сами можете взглянуть на robots, перейдя по этой ссылке.

Вот сейчас ломаю голову над вопросом, почему для одних сайтов, Яндекс исключает из индекса то, что прописано в robots.txt, а для других – нет? Возможно у него любовь непосредственно к старым сайтам или попросту он не смотрит на robots?

Самое печальное в том, что эти самые метки могут стоять в выдаче выше по каким-то запросам, чем сами страницы, где располагается требуемая информация. Возможно, напишу Яндексоидам по данному вопросу, хотя, не исключаю того факта, что в случае ответа их поддержкой, будет простая отписка.

Поделитесь ссылкой на пост в сервисы:

Оцените запись:

Комментарии

Чему вы удивляетесь? у вас Robots.txt не правильно составлен 🙂
http://webmaster.yandex.ru/robots.xml
Вот для началу проверяйте на том же yandex, а потом такие статьи пишите.
При правильном robots все что нужно индексирует все что не нужно НЕ индексирует.

Даже без проверки уже сам увидел
Не может быть два раза прописываться
User-Agent: *

В конце после всех запретов должно стоять просто
Disallow:

Если robots.txt не корректен, поисковая система сама выбирает что делать с сайтом.

У меня есть один сайт, я на нем запретил полное индексирование сайта.
Disallow: /
Так вот прошло 2 месяца, как был сайт в индексе так и сидит.
Хотя через сервис проверки (http://webmaster.yandex.ru/robots.xml ) показывается, что все запрещено как надо.

Яша в своем репертуаре.

Что там говорить АГС -17 всем нервы успел потрепать, ия думаю это только начало.

Это ещё не всё!
Яндекс давно противоречит сам-себе!
1) Полное игнорирование файла robots.txt
2) расклейка-склейка доменного имени: с www, без www.
3) Апдейты тИЦ по правилам Яндекса происходят 2 раза в месяц.
4) Для кого написаны все эти правила — непонятно.

С уважением.

Не только яндекс, но и гугл грешит игнорированием ноиндекса 😉 — можете посмотреть на указанный сайт (через гугль) — он прелестно индексирует линкопомойку, закрытую несколькими тегами.

Так что, у них, это семейное.

В интернете встречаются robots.txt с отдельным описанием параметров для Яндекса.

Да и исключение из выдачи дело не одного месяца в случае если это не бан или фильтр.

Admin проверь свой robots.txt он корявый.
Не удивительно что yandex индексит весь сайта

>> Дмитрий
вы вообще в курсе что обозначает директива
Disallow: /
Вы с начало прочитайте что это обозначает, а потом удивляйтесь.

http://webmaster.yandex.ru/robots.xml
вы сами указали нужный сервис для проверки. Там ведь сразу можно проверять будет ли доступен такой то URL или нет

А может роботс делается(составляется) неправильно? Я вот читал что кто то пишет что надо писать robots.txt в кодировке ANSI(Windows) или UNIX. Неужто думаю из за кодировки происходит игнор яндекса некоторых сайтов, вед не все додумываются проверить в какой кодировке составляется robots.txt

а у меня уже год Яндекс не может взять из robots.txt основной хост

Лично у меня robots.txt в силу вступает после 3 апдейтов выдачи.

Robots рулит в яше
nofollow — в гоге
Вот правильная запись

User-agent: Yandex
disallow: /wp-login.php
disallow: /wp-admin/
disallow: /?s=

и усё

<<< zero
Не совсем понял ваш пост.
robots.txt создан по рекомендациям самого Яндекса:
http://help.yandex.ru/webmaster/?id=996567#996571

Дмитрий.
Вынужден вас расстроить, что ваша ссылка это старое описание, от которого yandex сам по осени отошел. Они до сих пор его не обновили. К сожалению нового так и нет.
Вы попробуйте оформить robots согласно правилам W3C
http://www.robotstxt.org/ родной сайт
Например директивы Allow давно не существует в robots.txt.
Yandex ее поддерживает, но с недавних пор также рекомендует ее убрать и писать все только через disallow. Также присутствуют и другие моменты, от которых происходит не верная индексация.
Привожу для примера свой:
Host: http://www.sd-xp.ru
Sitemap: http://www.sd-xp.ru/sitemap.xml
User-Agent: *
Disallow: /design/
Disallow: /js/
Disallow: /php/
Disallow: /styles/
Disallow:

Абсолютно валиден как для Yandex так и для Google, Rambler, Aport и других. И все что нужно не индексируется. Все что нужно индексирует.

Поэтому тут дело не в Yandex (хотя частитчно его старый help вводит в заблуждение) а том, что неверно оставлен robots.txt

zero, если я не знаю, как оформляется правильно robots.txt, я об этом и не пишу и более того, не утверждаю, что мой роботс верен на 100%. Вы же утверждаете, что у меня на блоге (не на этом, а на другом) он составлен неверно. Тогда объсните, почему у вас сперва идет Host, Sitemap, если у других сайтов сперва начинается роботс непосредственно с User-Agent: *?
И потом, где вы здесь заметили ошибку?
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /go.php
Disallow: /tag/
Disallow: /archive/
Disallow: /xmlrpc.php
Host: http://www.webarb.com
Разве только в том, что я не прописал Disallow: ? Тем не менее, яндекс, по идее, должен был отсеять то, что было прописано, а он этого не сделал.

У меня блогу чуть более полугода, должен сказать, что метки, которые я добавляю остаются в индексе яндекс их абсолютно не выкидывает и траст у моего блога высокий, я вот думаю, может это потому что у меня статьи более тысячи символов, контент уникальный, блог часто обновляется, редко такое случается, что я по долгу не обновляю блог, может по этому блог находится в индексе яндекса и с каждой выдачей количество проиндексированных страниц только добавляется, мне кажется очень важно с самого начала заслужить доверие со стороны яндекса.

«яндекс, по идее»
вот именно тут как раз и ошиблись. Yandex далек от наших идей.

Строчка Disallow: является принципиальной, как ни странно, об этом написано на родном сайте.
Знаете закон подлости? Из 32 карт нужная карта будет всегда 32.
Из 120 билетов если не учит один например 117, то именно 117 и выпадет на экзамене.
Здесь тоже самое.

Указывать sitemap: … можно хоть где, хоть в начале хоть в конце, эта директива никакого отношения к индексации не имеет. Она просто указывает роботу, где лежат подробные инструкции по сайту.
Я предпочитаю ставить sitemap впереди, потому что многие роботы, в случае, косяка внутри, игнорируют весь остаток файла и поэтому есть вероятность довольно высокая, что директива sitemap может быть вообще не считана.
Поэтому мой выбор остановился на том, чтобы писать выше.

Теперь касаемо статьи.
Я конечно ни хочу и не хотел никого обидеть, но просто из банального вопроса выросла статья, мое мнение ни о чем. Как говориться я постарался высказать свое мнение, возможно не коректно, за что прошу извинения.
Можно было перед тем как написать, просто погуглить, и написать куда полезнее статью о том, как именно нужно писать robots.txt.
На сегодняшний день толковой информации мало, в основном раскопирована статья 2004 года выпуска и многие блогеры (по моим прикидкам порядка 90%) тупо скопировали контент.
Но ведь все в мире течет все меняется. А в Интернет меняется еще быстрее.
Извиняюсь за длинный пост и двойную запись Zero. Какие то глюки с постами.

ИМХО, Яндекс может и учитывает в панели ссылки из ноундекса, но наверно с нулевым весом.
Просто показывает, что она есть в Интернете, но без веса.

zerohold, да извиняться, собственно, не стоит. Ну так в том и дело, что по сути у меня роботс прописан верно, не хватает только Disallow:. Кстати, когда создавал роботс, сперва посетил сайт robotstxt.org.ru, дабы не напортачить. И честно признаюсь, там в тот момент, когда смотрел, строчки Disallow: не было.
Эту строку я добавлю себе в роботс, посмотрим, изменится ли ситуация). Плюс спасибо за развернутые ответы.
Ну а то, что темы пережеваны, в этом нет ничего плохого, так как если вы знаете проблему, это еще не значит, что знают другие. Также стоит отметить, что Яндекс — это поисковая система, которая может вовсе игнорировать роботс, ноиндекс. Это равносильно тому, что вы будете мне утверждать, что сайты не банятся и что это просто фантазия вебмастеров, на что я вам буду отвечать, что они банятся).

А меня Яша вообще не любит, я для него стараюсь, обратные ссылки наращиваю robots.txt правильно составил оптимизирую как могу, а он мне тиц не поднимает….HELP!
Жалко смайла нет, который плачет.

Хорошая статья. А я то думал, хоть робота он читает…

Возможно долго запрещенные к индексированию файлы находились в кэше яндекса и не было апов на вашем сайте, яндекс, наверное, заснул, поэтому все страницытещё были в индексе.

У меня яша выборочно роботс учитывает…… не по порядку, не по алфавиту, а просто некотроые папки в индексе, а некоторые нет
про диссалоу: не понял ????
нужно перед хост вставить диссалоу: без указания папки ?
я правильно понял ?

Бизнесмен, да, нужно, только вот так
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /go.php
Disallow: /tag/
Disallow: /archive/
Disallow: /xmlrpc.php
Disallow: /jexr/
Disallow:
Это все в качестве примера. У вас может быть выставлено совершенно все иначе.

[…] так как нужно было вовремя закрыть дубли страниц в robots.txt, а также не переставать работать над […]

Хорошая затронута тема!
Давно всем предлагаю объявить бойкот ЯНДЕКСУ
дабы их спесь немного поубавилась

Подмечено..

как только ваш сайт начинает из себя что-то мало-мальски представлять + вы зарегистрировали сайт в яндексе (вебмастер) для отслеживания своих позиций (отслеживают и вас) в рунете да ещё и в добавок вы ненароком где-то рекламу для своего сайта заказали (НО НЕ В ЯНДЕКС-ДИРЕКТ) — ВСЁ ЗАБУДЬТЕ ПРО СВОЙ САЙТ с проиндексированными страницами в яндексе.
Там сидят хитромудрые караси и сутками работают лишь над тем — КАК БАБЛА ПОБОЛЬШЕ С РУБИТЬ!
желание то нормальное, никто не спорит — НО НЕ ТАКИМ ТО МЕТОДОМ!
Популярность яндекса присутствует только среди ламеров — агрессивные методы маркетинга на поверхности.
Большинство ПО, а в частности браузеров устанавливается на пк с теми или иными продуктами от яндекс.

Короче — Я ЗАБИЛ НА ЯНДЕКС!
ЯНДЕКС однозначно юзают только ЛОХИ!

копируйте и распространяйте это текст — (люди должны знать правду)

Интересный пост. Я сам сейчас голову ломаю, поскольку возникли проблемы с индексацией на одном моем блоге. Я уже 1,5 месяца искал причину ошибки, но вроде все верно… Сейчас вот осенила такая догадка: для Яндекса лучше вообще не прописывать в robots.txt ничего. У меня 3 блога. Двум из них чуть больше года, и они с самого начала создания индексировадись на ура. На этих блогах robots.txt пустой. Создал 2 месяца назад новый блог. За 2 первых недели 10 статей были проиндексированы без проблем, но затем я, как «умная Маша», создал robots.txt. И прописал-то я там все правильно, только после этого писец, полный писец. В панели Вебмастера видно что Яша страницы свежие грузит, но дальше — никакой движухи… Всестороннее изучение проблемы в Интернете натолкнуло на следующую идею: ряд продвинутых блоггеров с опытом сталкивались с тем, что после создания новых блогов по всем правилам и с правильным robots.txt Яндекс добавляет в поиск лишь некоторые страницы. И длительная переписка с техподдержкой Яндекса выявляет суть «проблемы»: видите ли робот частенько относит правильные молодые сайты к ГС, по причине их просеошенности (но на блогах, «отшлепанных» Яндексом перегибов с СЕО не было отмечено). Вот и родилось у меня подозрение: если сайт новый и в robots.txt разрешены к индексации в основном только статьи, то получается страниц для индексации мало, и все они СЕО оптимизированны. Может на основании этого робот яндекса решает что это ГС. Ну не может быть все сразу и хорошо, как-то не по-нашему. А если robots.txt пустой, то «взору» Яши предстает совсем другой сайт: с кучей дублированного контента, мусора, зато такой родной, сразу видно, что создан он «нормальным» человеком, а не коварным Веб-Дизайнером, которому лишь бы продвинуть свой сайт в ТОП10 любыми правдами и неправдами. Не знаю, насколько верна моя теория, но в секции robots.txt я все удалил, за исключением запрета на системные папки. Посмотрим, что из этого выйдет…

Кстати, то что Яндекс «кладет большой болт» на директиву host, я убедился на одном из своих проектов. Пытался объединить зеркала. Добавил host на домен без www, и Яндекс выкинул все страницы из поиска, за исключением главной. 3 месяца вел переписку с техподдержкой Яндекса, и мне неизменно отвечали, что у меня на блоге все хорошо, все правильно, «все хорошо, прекрасная маркиза», и скоро все страницы появятся вновь в индексе. «Скоро» длилось 3 месяца. Страницы не появлялись. Я плюнул на всю эту склейку, вернул все как было. Через неделю все страницы вновь вернулись.

а вот мой:

User-agent: Yandex

Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/cache
Disallow: /wp-content/uploads
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /comments
Disallow: */comments
Disallow: /feed
Disallow: */feed
Disallow: /trackback
Disallow: */trackback
Disallow: /*?
Disallow: /*?*
Disallow: /xmlrpc.php
Host: seo-murzikof.ru
Sitemap: http://seo-murzikof.ru/sitemap.xml

User-agent: *

Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/cache
Disallow: /wp-content/uploads
Disallow: /wp-content/plugins
Disallow: /wp-content/themes
Disallow: /comments
Disallow: */comments
Disallow: /feed
Disallow: */feed
Disallow: /trackback
Disallow: */trackback
Disallow: /*?
Disallow: /*?*
Disallow: /xmlrpc.php
Sitemap: http://seo-murzikof.ru/sitemap.xml

такого не замечал, но Яша колбасит мои страницы по полной… то 12000 в индексе, то 5000, то 8546… в общем закономерности не наблюдаю…

Прокомментировать

(обязательно)

(обязательно)