Главная » Статьи » Компьютерные тонкости » WEB-мастеру

robots.txt начинающего блоггера

Когда то я и не знал для чего вообще нужен этот текстовый файл и что он делает. Да и до сих пор я не знаю, точно правильно ли он у меня составлен или нет. И как оказалось это достаточно важный файл в работе сайта во всемирной паутине. Но, так или иначе, этим файлом пользуются практически все, кто имеет свой блог или сайт. И без этого файла уже не обойтись, так как он занимается очень важным делом. И попробую выяснить на своем примере, на своем файле robots.txt что же он все таки делает и как я его настроил. Этот файл это обычный текстовый документ – создается при помощи обычного блокнота и сохраняется в обычный текстовый файл с расширением <> называемый маленькими прописными буквами и имеет вид: robots.txt. Далее этот файл нужно загрузить к себе на сервер, на ваш сайт в корневой каталок /robots.txt. После чего можно проверить набрав ваш сайт и имя файла, например как у меня http://www.white-windows.ru/robots.txt — и посмотреть параметры заложенные в нем. В большинстве случаев его можно посмотреть на разных блогах и сайтах. Использование этого файла сугубо добровольное дело, то есть хотите, используйте, а можете и не использовать. Но лично я все же рекомендую использовать этот файл настроек индексации. Так как он необходим для ограничения доступа к некоторым разделам сайта со стороны поисковых систем. И не позволяет им проиндексировать некоторые страницы, каталоги и разделы. Кто-то скажет да ну его нафиг, пускай индексирует все содержимое моего сайта. Понимаете ли, дело то вот в чем – а именно в том, что поисковые системы не очень любят и плохо относятся к повторяющимся материалам, статьям и дубликатам страниц. Что может привести не к очень хорошим результатам. А если вы используете современные CMS движки (WordPress, Joomla и другие) для построения и управления своим Web-сайтом или блогом, то в результате их деятельности происходит большое дублирование контента в индексации сайта. И чтобы этого избежать, необходимо использовать файл Далее приведу пример моего файла robots.txt сделанного для этого сайта под управлением WordPress и посмотрим, что он блокирует и что остается в поисковой выдаче: 1. # /robots.txt для сайта www.white-windows.ru2.3. User-agent: Yandex4. Allow: /wp-content/uploads5. Disallow: /cgi-bin6. Disallow: /wp-admin7. Disallow: /wp-includes8. Disallow: /wp-content/plugins9. Disallow: /wp-content/cache10. Disallow: /wp-content/themes11. Disallow: /trackback12. Disallow: /trackback13. Disallow: //trackback14. Disallow: /tag/15. Disallow: /tag/16. Disallow: /archive/17. Disallow: /2012/18. Disallow: /feed19. Disallow: /comment/20. Disallow: /author/21. Disallow: /search/22. Disallow: /rss/23. Disallow: /.js24. Disallow: /.inc25. Disallow: /.css26. Disallow: /?27. Disallow: /.gz28. Host: www.white-windows.ru29.30. User-agent: Googlebot31. Allow: /wp-content/uploads32. Disallow: /cgi-bin33. Disallow: /wp-admin34. Disallow: /wp-includes35. Disallow: /wp-content/plugins36. Disallow: /wp-content/cache37. Disallow: /wp-content/themes38. Disallow: /trackback39. Disallow: /trackback40. Disallow: //trackback41. Disallow: /tag/42. Disallow: /tag/43. Disallow: /archive/44. Disallow: /2012/45. Disallow: /feed46. Disallow: /comment/47. Disallow: /author/48. Disallow: /search/49. Disallow: /rss/50. Disallow: /.js51. Disallow: /.inc52. Disallow: /.css53. Disallow: /?54. Disallow: /.gz55.56. User-agent: 57. Allow: /wp-content/uploads58. Disallow: /cgi-bin/59. Disallow: /.gz60. Disallow: /tag/61. Disallow: /tag/62. Disallow: /archive/63. Disallow: /2012/64. Disallow: /feed65. Disallow: /trackback66. Disallow: /comment/67. Disallow: /rss/68.69. Sitemap: http://www.white-windows.ru/sitemap.xml список из 4 элементов •Первая строка это просто комментарий. •Третья строка User-agent: Yandex – эта строка означает что нижеследующие параметры применимы к поисковой системы Яндекс. •Четвертая строка Allow: /wp-content/uploads – эта строка наоборот разрешает сканирование данной категории. Так как я использую CMS WordPress, то в этой папке хранятся картинки. И я открываю для Яндекса и индексирования эту категорию, чтобы индексировались картинки т.к. в популярных поисковых системах есть поиск по картинкам и люди иногда по ним переходят на мой сайт. Хоть и директива Allow(разрешать) и не является стандартом, но тем не менее её поддерживают некоторые поисковые системы. •Далее с пятой по двадцать седьмую строчку идут запрещающие индексацию директивы Disallow. конец списка Некоторые, которые, скорее всего, точно нужно закрывать: список из 7 элементов •Это строки 14 и 15 Disallow: /tag/ и Disallow: /tag/ — так как на сайте со временем набирается большое количество тэгов к статьям и материалам то WordPress генерирует дубликаты, что поисковикам не нравиться, поэтому я закрываю это от индексации. •Далее строки 16 и 17 Disallow: /archive/ и Disallow: /2012/ — запрет на индексацию архива статей, на всякий случай прописываю год, т.к. не знаю почему проходила индексация. •18 и 22 Disallow: /feed и Disallow: /rss/ — запрет на индексацию RSS ленты новостей анонсов статей. •Строка 21 Disallow: /search/ — запрет индексации поиска. •Строка 19 Disallow: /comment/ — запрет на индексацию комментариев – хоть и некоторые говорят, что можно и оставить, но я пока не определился и заблокировал. •Строка 20 Disallow: /author/ — запрет на индексацию по автору т.к. опять одни и те же статьи получаются. •Строки 11, 12 и 13 – закрытие индексации trackback’а. конец списка •Со строки номер 5 по 10 – запрещаем от индексации различные административно-технические разделы. Обычно они хранят файлы настройки и управления сайта и разные элементы и настройки движков CMS, которые не нуждаются в индексации. •Строки с 23 по 27 – запрещает индексацию различных файлов параметров, скриптов, css-стилей таблиц и других ненужных элементов. •Строка № 28 Host: www.white-windows.ru – Директива Host используется для определения основного зеркала сайта. •Для поисковой системы Яндекса это все. Далее идет строка № 30 User-agent: Googlebot – запреты для поисковой системы Google и нижеследующие параметры, которые я оставил такими же, как и для Яндекса. Единственное директиву Host больше писать не надо. В строке № 56 User-agent: * — звездочка указывает на как бы параметры для других любых поисковых систем. Здесь я оставил немного укороченный вариант (пока). •И последняя строка № 69 Sitemap: http://www.white-windows.ru/sitemap.xml – эта строка указывает поисковикам, где находится файл sitemap.xml (карта сайта в формате XML) для лучшей индексации сайта. Вообще в идеале в поисковики должны попадать только ваши статьи, ну и желательно картинки с полным описанием т.к. с картинок тоже на ваш сайт могут переходить люди. Но это не всегда так и обычно в индексацию попадают множество копий, дублей и ненужной информации. Что естественно негативно сказывается на отношении поисковиков к вашему сайту. А за очень большое количество одной и той же информации поисковики могут понизить в рейтинге, или вообще забанить ваш сайт или блог посчитав это за методы черной раскрутки. Что же на деле получилось у меня для поисковика Яндекс: В основном я добился индексации только своих статей, страниц из основного верхнего меню и той информации, которую хотел чтобы она проиндексировалась. Но есть и спорные моменты. Например такие как – стоит ли разрешать индексацию категорий. Читая разные форумы, блоги и комментарии я для себя решил оставить в индексации категории. Так как кто-то сказал, что если категория имеет описание с некоторым текстом и статьи при нажатии на категорию высвечиваются в виде списка статей и анонса, то есть не полностью отображается статья, то категории не считаются дублем. В целом и я так думаю. Еще один вопрос это стоит ли закрывать навигационные страницы page 1 2 3 4 … и т.д. По идее никто вам не запрещает создавать списки страниц с вашими материалами. И если в них не отображаются статьи полностью, а только анонсом то я думаю, это не есть дубль. Поэтому пока оставил в индексации, хотя можно и убрать. Итоги всей этой эпопеи в том, что все-таки я для себя решил, что файл robots.txt нужный и его использование крайне необходимо, кстати, настолько, что его даже рекомендуют использовать некоторые именитые поисковые системы. Дмитрий Демченко Источник: http://www.white-windows.ru/robots-txt-beginner-blogger/
Категория: WEB-мастеру \| Добавил: ivanchay071 (04.03.2015)
Просмотров: 662 \| Теги: зримо, веб-мастеру