Файл Robots.txt

Сегодня достаточно много таких людей, которые стремятся к тому, чтобы создать сайт, который мог бы в дальнейшем стать источником пассивного дохода. Новички, не знающие ещё многих нюансов SEO-оптимизации, с малым успехом продвигают свои сайты.

Если не хотите оказаться на их месте, изучайте все нюансы касательно того, что должно быть у вашего сайта. Один из важнейших элементов – это файл robots.txt. Что это такое и для чего нужно?

Название файла говорит само за себя. Не стоит обращать внимание на то, что robots.txt – всего лишь файл в текстовом формате. От этого его значение отнюдь не уменьшается.

Именно с файла robots.txt начинается знакомство поисковых машин с вашим сайтом. Заходя на любой новый или не совсем ресурс, они в первую очередь ищут этот файл.

Это своего рода секретарь-референт вашего сайта. Поэтому роботы вежливо, но настойчиво интересуются: что вы хотите, чтобы было проиндексировано и показано из вашего сайта в выдаче?

Возможные варианты: все, ничего и, конечно же, то, что мы с вами хотим показать.

Если вас интересует продвижение вашего сайта в поисковых системах, то критически важно уделить этому вопросу внимание и подружиться с поисковыми роботами.

Содержание

Файл robots.txt его суть и особенности

Суть работы робота сводится к тому, что он, проходя по сайтам, индексирует новые страницы, а также все обновления, чтобы пользователи системы могли адекватно получать ответы в виде страниц выдачи на свои запросы по ключевым словам.

Следовательно, если вы хотите как-либо продвинуться вверх по выдаче, нужно обратить внимание на то, что именно стоит индексировать, а что совершенно не имеет смысла, и, соответственно, будет только вредить эффективному продвижению.

Ваш сайт состоит из множества различных файлов (около 500 и больше), из которых для посетителя представляет ценность лишь небольшая (контентная) часть. Это статьи, полезные ссылки, возможно и некоторые изображения. Все остальные вспомогательные и не имеющие ценности ни для поисковых систем, ни для пользователя страницы нужно закрыть от индексирования.

К ним могут относиться дубликаты страниц, статистика посещаемости сайта, различные логи, страницы результатов поиска по сайту, администрирование, страницы сервиса баз данных и так далее.

С помощью буквально двух-трех директив файл robots.txt отлично справится с поставленными задачами. Однако, имея в виду, что дело имеется не с человеком, а с машиной, нужно максимально корректно прописать эти директивы, иначе вместо положительного результата можно получить лишь дополнительные проблемы.

Файл robots.txt проще всего создавать в элементарном текстовом редакторе. Блокнот от Windows идеально подойдет для решения поставленной цели.

Директивы robots.txt

Первая директива – это «User-agent:». Она указывает на то, к каким именно поисковым роботам даётся директива. Если указать символ«*», значит ко всем без исключения. На всякий случай так и следует написать. Хотя если разобраться, интересуют чаще всего именно два самых популярных робота поисковых систем Googleи Yandex. Значит так и запишем:

Далее прописывается директива «Disallow:». Это и есть запрещающий оператор, другой (к примеру, разрешающий «Allow:») в данном случае не приемлем.

Если прописывается «Disallow:», значит разрешается все. Если же прописать с наклонной в формате «Disallow: /», значит всё запрещается.

Внимание! Есть очень важный момент! Между строк не должно быть пробелов, так как, дойдя до пустой строки, робот будет считать, что файл закончился. В дальнейшем придётся столкнуться со всеми вытекающими последствиями.

Далее построчно прописываются каталоги и файлы, которые не подлежат индексации. Чтобы понимать, как это работает, стоит сказать, что, к примеру, после такой директивы, как «Disallow: /wp-content» роботы не «полезут» в каталог «wp-content». После «Disallow: /index» также не станут индексировать файл «index.html».

Важно также соблюдение требований к оформлению. Не должен при создании файла использоваться верхний регистр, так как некоторые роботы могут его не распознавать. В первую очередь, это касается названия файла. Помните, что оно должно соответствовать только одному варианту – «robots.txt».

Пример robots.txt сайта 1000rabota.ru

Для большей наглядности и понимания того, как именно должен выглядеть файл robots.txt, стоит изучить пример, приведённый ниже.

User-agent: *
Disallow: /wp-admin
Disallow: /vote/
Disallow: /2009/
Disallow: /2010/
Disallow: /2011/
Disallow: /2012/
Disallow: /2013/
Disallow: /2014/
Disallow: /2015/
Disallow: /2016/
Disallow: /2017/
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /xmlrpc.php
Disallow: /wp-content/uploads
Disallow: /rezervnye-obyavleniya
Disallow: /trackback/
Disallow: /tag/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /*?*
Disallow: /?feed=
Disallow: /?s=
Disallow: /poisk.html$

Этот же файл и для того же сайта. Единственное отличие в том, что он создан специально для робота системы Yandex.

User-agent: Yandex
Disallow: /wp-admin
Disallow: /vote/
Disallow: /2009/
Disallow: /2010/
Disallow: /2011/
Disallow: /2012/
Disallow: /2013/
Disallow: /2014/
Disallow: /2015/
Disallow: /2016/
Disallow: /2017/
Disallow: /wp-includes
Disallow: /xmlrpc.php
Disallow: /wp-content/uploads
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /rezervnye-obyavleniya
Disallow: /trackback/
Disallow: /tag/
Disallow: /feed/
Disallow: */*/feed/*/
Disallow: */feed
Disallow: */*/feed
Disallow: /*?*
Disallow: /?feed=
Allow: /feed/zen
Disallow: /?s=
Disallow: /poisk.html$
Host: 1000rabota.ru
Sitemap: //1000rabota.ru/sitemap.xml.gz
Sitemap: //1000rabota.ru/sitemap.xml

После того, как вы укажете все каталоги и файлы, закрытые для индексирования, не забудьте о том, что необходимо прописать URL-адрес своего XML-файла Sitemap. Так это выглядит на примере: «//1000rabota.ru/sitemap.xml». Естественно, там, где указывается ссылка, вы должны вписать адрес исключительно своего сайта.

Только для Яндекса в дополнение приписывается директива «Host:», в которой указывается основной URL вашего сайта. Пример оформления: «Host: 1000rabota.ru», где также должна быть заменена ссылка на адрес вашего сайта.

Пока у вас нет зеркала сайта, эта директива не имеет никакого смысла, но впоследствии это может принести пользу, поэтому лучше прописать сразу и в дальнейшем ни о чём не переживать.

Последнее, но важное замечание. Файл robots.txt должен заливаться в корневой каталог сайта. Это легко проверить, забив в поиск простой адрес://1000rabota.ru/robots.txt (естественно, вы вводите ссылку, которая будет вести на ваш ресурс).

Насколько важен файл robots.txt

Кто-то скажет, что он и без такого файла вполне успешно создал сайт и публикует там контент. Да, безусловно, ресурс может работать и без robots.txt. Но тут есть важное замечание. Если вы захотите зарабатывать на своём сайте, необходимо добиться лучших результатов в продвижении. Благодаря такой манипуляции вы обеспечите себе качественную индексацию только тех страниц и того контента, который должен попасть в выдачу поисковых систем.

Если есть возможность, сформируйте такой файл и загрузите в корневой каталог как можно раньше. Тогда вы с самого начала наберёте хорошую «скорость» и сможете успешно наращивать аудиторию.