ак создать файл robots.txt


01.08.2012, 20:18

јвтор статьи: ћихаил



«ачем нужен файл robots.txt

Ћюбой поисковый робот при заходе на сайт сначал ищет файл robots.txt. ƒаже если ¬ы ещЄ не вебмастер, а как говоритьс€: только учитесь, то сейчас мы узнаем зачем нужен файл robots.txt и как правильно его заполнить.

‘айл robots.txt Ц это обычный текстовый файл. ќн находитс€ в главной директории сайта. ¬ этот файл нужно записать специальные правила дл€ поисковых роботов таких как яндекс, √угл, ћаил и т.д. ѕравила могут или разрешать или запрещать поисковикам индексировать страницы или целые папки или, наоборот, разрешать индексировать что то конкретное. ¬ этом файле так же можно указать какой адрес вашего сайта с www или без него €вл€етс€ главным и т.д.

ќдин авторитеный сайт выложил на Youtube обучающий фильм. ¬ нЄм рассказываетс€ как правильно создать файл robots.txt дл€ своего сайта. —мотрим:



 ак стало пон€тно из фильма, можно использовать простые конструкции дл€ создани€ своего файла. –ассмотрим пример того, как создать файл robots txt:

1
2
3
4
5
6
7
8
9
User-agent: *

Disallow: /404.html
Disallow: /admin/
Disallow: /forum/tools.php

Sitemap: https://www.site.ru/sitemap.xml

Host: www.site.ru

¬ простейшем случае, файл robots.txt должен выгл€деть так.

«десь, перва€ строка:
1. User-agent: *
указывает на то, что правила распростран€ютс€ на все поисковые системы.

—троки 3,4,5:
Disallow: /404.html
Disallow: /admin/
Disallow: /forum/tools.php
”казывают поисковым роботам какие папки и страницы необходимо исключить из поисковой выдачи! ѕолучаетс€, что мы закрываем от индексации файл 404.html - это файл ошибок. “от файл, который показываетс€ посетителю сайта если он пришЄл по старой или ошибочной ссылке.

“ак же исключаем папку "admin". Ћогично, в нашем примере это панель администрировани€ нашего сайта. Ќам не нужно чтобы поисковый роботот приходил сюда.

» последнее - мы исключаем страницу наход€щуюс€ в папке "forum" под именем tools.php - "/forum/tools.php". Ёта страница у нас служебна€, поэтому не нужна дл€ индексации поисковыми роботами.

ќтметим важную особенность: »сключа€ папку "admin" мы исключаем также из поисковой выдаче все файлы наход€щиес€ в этой папке. јналогична€ ситуаци€ с файлом tools.php. ћы исключаем все страницы, которые могут быть получены путЄм обращени€ к эту файлу с запросом, например, мы исключаем такую страницу:
- "/forum/tools.php?profile=Petrov"
- "/forum/tools.php?profile=Ivanov"
- "/forum/tools.php?profile=Sidorov"

“о есть все не нужны ("мусорные" с точки зрени€ поисковиков) страницы.

¬ строке 7 нашего примера есть команда:
Sitemap: https://www.site.ru/sitemap.xml
. ќна означает, что у нас на сайте в корневой папке есть специальный файл, так называема€ карта сайта, в котором наход€тс€ ссылки на все нужные нам дл€ индексации поисковыми роботами страницы.

 ак создать карту сайта? я, например, дл€ этих целей использую программу "Sitemap Generator". ќна бесплатна€, ¬ы можете легко найти такую программу в »нтернете.

» последн€€ строка є 9 это у нас
Host: www.site.ru
ƒанна€ строка говорит поисковику кака€ же страница €вл€етс€ главной с www или без.

ќтмечу, что файл robots.txt может содержать пустые строки, а может и не содержать. Ёто разрешаетс€. —оздав такой простейший файл на своЄм сайте ¬ы гарантировано можете исключить все ненужные страницы из поисковой выдачи, указать как индексировать ¬аш сайт с www или без и дать поисковикам ссылку на карту сайта.


 лючевые слова:
robots
файл robots дл€ сайта
исключаем страницы
Disallow
индексировать
нужен на сайте
разрешать поисковикам
правила
робот
робототехника


¬ернутьс€ в рубрику:

—татьи посетителей


≈сли вы хотите видеть на нашем сайте больше статей то кликните ѕоделитьс€ в социальных сет€х! —пасибо!
—мотрите также:

ќбратите внимание полезна€ информаци€.