Мета-тег Robots и файл robots.txt на страже сайта

Любого владельца сайта радует, когда поисковый робот регулярно сканирует веб-ресурс и добавляет проиндексированный контент в свое хранилище. Однако, это может быть не всегда во благо, ведь для избегания дублей не все страницы следует индексировать, а некоторые и вовсе нежелательно показывать в поисковой выдаче. В этом случае на стражу сайта становятся мета-тег Robots и файл robots.txt, незаменимые помощники вебмастера.

Robots.txt,  находящийся в корневой папке блога, фильтрует доступ поисковиков, запрещая доступ к указанному содержимому или же наоборот, направляя роботов к нужному контенту для ускорения его регистрации. Например, если имеется несколько поддоменов, то чтобы направить к их содержимому поискового «паука», следует установить файл robots в корне каждого из них. Стандарт такого файла принят на вооружение всеми поисковиками, в том числе такими гигантами, как Яндекс или Гугл. Он не является обязательным, но его применение способствует развитию и продвижению сайтов, правильной поисковой выдаче материалов заинтересованным пользователям интернета, а потому он полезен как владельцам вебсайтов, так и системам поиска.

Стандарт поведения роботов на ресурсе принят решением консорциума W3C в 1994 году и с тех пор является общепринятым актуальным решением. Поисковые роботы обязаны учитывать такой файл robots.txt для wordpress или для других типов CMS и руководствоваться находящейся в нем информации. Папка файла имеет набор правил индексирования отдельных материалов или целых разделов поисковыми «пауками». С другой стороны, имеющаяся в файле robots.txt инструкция может указывать роботу на местонахождение контента, который требуется проиндексировать в первую очередь.

Случается, что на портале хранятся конфиденциальные документы для исключительного использования только самим владельцем или доверенным лицам, поэтому и здесь файл robots придет на помощь, запретив доступ к этим данным. Конечно, лучше такие сведения хранить в защищенном хранилище под паролем, но при необходимости выкладывания их в интернет без права индексирования, этот универсальный файл всегда будет стоять на страже.

Следует заметить, что таким образом вебмастера также скрывают отдельные свои профессиональные разработки, не допуская их к индексации (например, картинки, коды JavaScript или таблицы стилей). В этом случае, обычно, в мета-тег Robots прописываются необходимые команды, но не все поисковики его правильно понимают, а потому и здесь лучше применять надежный файл robots.txt. Все необходимые рекомендации по его применению подробно описаны в разделе Яндекс.Вебмастер.