robots.txt

Попробую немножко подкрутить robots.txt, это должно быть полезно для сайта в целом. :)

Немного теории. В самом файле robots.txt содержатся директивы для поисковых роботов. На самом деле по стандартам (почитать можно, например, здесь) существует всего 3 директивы: # — комментарий, User-agent — указывает робота, для которого идут дальнейшие директивы и Disallow — указывает не индексируемый путь или файл. Остальные директивы являются расширением этого стандарта и поддерживаются только узким кругом поисковых роботов.

Чтобы не углубляться в тему, дам ссылки, что нужно почитать при составлении своего, уникального robots.txt:

А теперь мой, наверняка не окончательный, вариант robots.txt и в конце пояснения по нему:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: */trackback
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Disallow: /gallery2
Disallow: /wpg2
Disallow: /v
Disallow: /xmlrpc.php
Disallow:

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: */trackback
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Disallow: /gallery2
Disallow: /wpg2
Disallow: /v
Disallow: /xmlrpc.php
Disallow:
Host: www.siniy.ws
Crawl-delay: 5
Sitemap: http://www.siniy.ws/sitemap.xml

Разделил на 2 категории, для всех роботов и для Яндекса. Для всех остальных — всё по правилам, прикрыты лишь те пути, куда залезать не стоит, включая галерею. В части Яндекса — те же пути, но с двумя директивами, поддерживаемые только им: Host — указание главного зеркала и Crawl-delay — задержка в обходе. О этих директивах читайте в рекомендациях Яндекса.

А также в очередной раз хочу спросить сеошников, что в моём сайте не так, почему в индексе Яндекса всего 33 страницы, а в поиске — 6?

Подпишитесь на обновления блога по RSS, Email или Twitter!
  • 8 июня 2010 г. в 16:12 | #1

    Лучше бы не крутили.

  • 9 июня 2010 г. в 14:41 | #2

    Возможные причины на мой взгляд:

    — есть ли карта сайта в xml

    — добавлен ли сайт в яндекс-вебмастер (во многом это помогает найти проблемные страницы)

    — еще одна (вероятность мала но все же) причина в домене ws (яндекс с неохотой относится к индексации)

    — мало уникального контента и вообще контента (почаще обновлять бы содержимое), много рекламы, робот яндексовский игнорирует многие страницы...

    в общем как-то так.

Оставить комментарий

XHTML: Вы можете использовать эти теги: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre lang="" line="" escaped="" highlight="">