Главная » Статьи » Компьютерные тонкости » WEB-мастеру

robots.txt начинающего блоггера

Когда то я и не знал для чего вообще нужен этот текстовый файл и что он делает. Да и до сих пор я не знаю, точно правильно ли он у меня составлен или нет.
И как оказалось это достаточно важный файл в работе сайта во всемирной паутине. Но, так или иначе, этим файлом пользуются практически все, кто имеет свой
блог или сайт. И без этого файла уже не обойтись, так как он занимается очень важным делом. И попробую выяснить на своем примере, на своем файле robots.txt
что же он все таки делает и как я его настроил.

Этот файл это обычный текстовый документ – создается при помощи обычного блокнота и сохраняется в обычный текстовый файл с расширением <> называемый
маленькими прописными буквами и имеет вид: robots.txt. Далее этот файл нужно загрузить к себе на сервер, на ваш сайт в корневой каталок /robots.txt. После
чего можно проверить набрав ваш сайт и имя файла, например как у меня
http://www.white-windows.ru/robots.txt
— и посмотреть параметры заложенные в нем. В большинстве случаев его можно посмотреть на разных блогах и сайтах.

Использование этого файла сугубо добровольное дело, то есть хотите, используйте, а можете и не использовать. Но лично я все же рекомендую использовать этот
файл настроек индексации. Так как он необходим для ограничения доступа к некоторым разделам сайта со стороны поисковых систем. И не позволяет им проиндексировать
некоторые страницы, каталоги и разделы. Кто-то скажет да ну его нафиг, пускай индексирует все содержимое моего сайта. Понимаете ли, дело то вот в чем –
а именно в том, что поисковые системы не очень любят и плохо относятся к повторяющимся материалам, статьям и дубликатам страниц. Что может привести не
к очень хорошим результатам. А если вы используете современные CMS движки (WordPress, Joomla и другие) для построения и управления своим Web-сайтом или
блогом, то в результате их деятельности происходит большое дублирование контента в индексации сайта. И чтобы этого избежать, необходимо использовать файл

Далее приведу пример моего файла robots.txt сделанного для этого сайта под управлением WordPress и посмотрим, что он блокирует и что остается в поисковой
выдаче:
1. # /robots.txt для сайта www.white-windows.ru2.3. User-agent: Yandex4. Allow: /wp-content/uploads5. Disallow: /cgi-bin6. Disallow: /wp-admin7. Disallow:
/wp-includes8. Disallow: /wp-content/plugins9. Disallow: /wp-content/cache10. Disallow: /wp-content/themes11. Disallow: /trackback12. Disallow: */trackback13.
Disallow: */*/trackback14. Disallow: /tag/15. Disallow: */tag/16. Disallow: /archive/17. Disallow: /2012/18. Disallow: /feed19. Disallow: /comment/20.
Disallow: /author/21. Disallow: /search/22. Disallow: /rss/23. Disallow: /*.js24. Disallow: /*.inc25. Disallow: /*.css26. Disallow: /*?27. Disallow: /*.gz28.
Host: www.white-windows.ru29.30. User-agent: Googlebot31. Allow: /wp-content/uploads32. Disallow: /cgi-bin33. Disallow: /wp-admin34. Disallow: /wp-includes35.
Disallow: /wp-content/plugins36. Disallow: /wp-content/cache37. Disallow: /wp-content/themes38. Disallow: /trackback39. Disallow: */trackback40. Disallow:
*/*/trackback41. Disallow: /tag/42. Disallow: */tag/43. Disallow: /archive/44. Disallow: /2012/45. Disallow: /feed46. Disallow: /comment/47. Disallow:
/author/48. Disallow: /search/49. Disallow: /rss/50. Disallow: /*.js51. Disallow: /*.inc52. Disallow: /*.css53. Disallow: /*?54. Disallow: /*.gz55.56.
User-agent: *57. Allow: /wp-content/uploads58. Disallow: /cgi-bin/59. Disallow: /*.gz60. Disallow: /tag/61. Disallow: */tag/62. Disallow: /archive/63.
Disallow: /2012/64. Disallow: /feed65. Disallow: /trackback66. Disallow: /comment/67. Disallow: /rss/68.69. Sitemap: http://www.white-windows.ru/sitemap.xml

список из 4 элементов
•Первая строка это просто комментарий.
•Третья строка User-agent: Yandex – эта строка означает что нижеследующие параметры применимы к поисковой системы Яндекс.
•Четвертая строка Allow: /wp-content/uploads – эта строка наоборот разрешает сканирование данной категории. Так как я использую CMS WordPress, то в этой
папке хранятся картинки. И я открываю для Яндекса и индексирования эту категорию, чтобы индексировались картинки т.к. в популярных поисковых системах есть
поиск по картинкам и люди иногда по ним переходят на мой сайт. Хоть и директива Allow(разрешать) и не является стандартом, но тем не менее её поддерживают
некоторые поисковые системы.
•Далее с пятой по двадцать седьмую строчку идут запрещающие индексацию директивы Disallow.
конец списка

Некоторые, которые, скорее всего, точно нужно закрывать:
список из 7 элементов
•Это строки 14 и 15 Disallow: /tag/ и Disallow: */tag/ — так как на сайте со временем набирается большое количество тэгов к статьям и материалам то WordPress
генерирует дубликаты, что поисковикам не нравиться, поэтому я закрываю это от индексации.
•Далее строки 16 и 17 Disallow: /archive/ и Disallow: /2012/ — запрет на индексацию архива статей, на всякий случай прописываю год, т.к. не знаю почему
проходила индексация.
•18 и 22 Disallow: /feed и Disallow: /rss/ — запрет на индексацию RSS ленты новостей анонсов статей.
•Строка 21 Disallow: /search/ — запрет индексации поиска.
•Строка 19 Disallow: /comment/ — запрет на индексацию комментариев – хоть и некоторые говорят, что можно и оставить, но я пока не определился и заблокировал.
•Строка 20 Disallow: /author/ — запрет на индексацию по автору т.к. опять одни и те же статьи получаются.
•Строки 11, 12 и 13 – закрытие индексации trackback’а.
конец списка
•Со строки номер 5 по 10 – запрещаем от индексации различные административно-технические разделы. Обычно они хранят файлы настройки и управления сайта и
разные элементы и настройки движков CMS, которые не нуждаются в индексации.
•Строки с 23 по 27 – запрещает индексацию различных файлов параметров, скриптов, css-стилей таблиц и других ненужных элементов.
•Строка № 28 Host: www.white-windows.ru – Директива Host используется для определения основного зеркала сайта.
•Для поисковой системы Яндекса это все. Далее идет строка № 30 User-agent: Googlebot – запреты для поисковой системы Google и нижеследующие параметры, которые
я оставил такими же, как и для Яндекса. Единственное директиву Host больше писать не надо. В строке № 56 User-agent: * — звездочка указывает на как бы
параметры для других любых поисковых систем. Здесь я оставил немного укороченный вариант (пока).
•И последняя строка № 69 Sitemap: http://www.white-windows.ru/sitemap.xml – эта строка указывает поисковикам, где находится файл sitemap.xml (карта сайта
в формате XML) для лучшей индексации сайта.

Вообще в идеале в поисковики должны попадать только ваши статьи, ну и желательно картинки с полным описанием т.к. с картинок тоже на ваш сайт могут переходить
люди. Но это не всегда так и обычно в индексацию попадают множество копий, дублей и ненужной информации. Что естественно негативно сказывается на отношении
поисковиков к вашему сайту. А за очень большое количество одной и той же информации поисковики могут понизить в рейтинге, или вообще забанить ваш сайт
или блог посчитав это за методы черной раскрутки.
Что же на деле получилось у меня для поисковика Яндекс:
В основном я добился индексации только своих статей, страниц из основного верхнего меню и той информации, которую хотел чтобы она проиндексировалась. Но
есть и спорные моменты. Например такие как – стоит ли разрешать индексацию категорий. Читая разные форумы, блоги и комментарии я для себя решил оставить
в индексации категории. Так как кто-то сказал, что если категория имеет описание с некоторым текстом и статьи при нажатии на категорию высвечиваются в
виде списка статей и анонса, то есть не полностью отображается статья, то категории не считаются дублем. В целом и я так думаю.
Еще один вопрос это стоит ли закрывать навигационные страницы page 1 2 3 4 … и т.д.
По идее никто вам не запрещает создавать списки страниц с вашими материалами. И если в них не отображаются статьи полностью, а только анонсом то я думаю,
это не есть дубль. Поэтому пока оставил в индексации, хотя можно и убрать.

Итоги всей этой эпопеи в том, что все-таки я для себя решил, что файл robots.txt нужный и его использование крайне необходимо, кстати, настолько, что его
даже рекомендуют использовать некоторые именитые поисковые системы.

Дмитрий Демченко

Источник: http://www.white-windows.ru/robots-txt-beginner-blogger/
Категория: WEB-мастеру | Добавил: ivanchay071 (04.03.2015)
Просмотров: 373 | Теги: зримо, Веб-мастеру