Сегодня достаточно много таких людей, которые стремятся к тому, чтобы создать сайт, который мог бы в дальнейшем стать источником пассивного дохода. Новички, не знающие ещё многих нюансов SEO-оптимизации, с малым успехом продвигают свои сайты.
Если не хотите оказаться на их месте, изучайте все нюансы касательно того, что должно быть у вашего сайта. Один из важнейших элементов – это файл robots.txt. Что это такое и для чего нужно?
Название файла говорит само за себя. Не стоит обращать внимание на то, что robots.txt – всего лишь файл в текстовом формате. От этого его значение отнюдь не уменьшается.
Именно с файла robots.txt начинается знакомство поисковых машин с вашим сайтом. Заходя на любой новый или не совсем ресурс, они в первую очередь ищут этот файл.
Это своего рода секретарь-референт вашего сайта. Поэтому роботы вежливо, но настойчиво интересуются: что вы хотите, чтобы было проиндексировано и показано из вашего сайта в выдаче?
Возможные варианты: все, ничего и, конечно же, то, что мы с вами хотим показать.
Если вас интересует продвижение вашего сайта в поисковых системах, то критически важно уделить этому вопросу внимание и подружиться с поисковыми роботами.
Содержание
Файл robots.txt его суть и особенности
Суть работы робота сводится к тому, что он, проходя по сайтам, индексирует новые страницы, а также все обновления, чтобы пользователи системы могли адекватно получать ответы в виде страниц выдачи на свои запросы по ключевым словам.
Следовательно, если вы хотите как-либо продвинуться вверх по выдаче, нужно обратить внимание на то, что именно стоит индексировать, а что совершенно не имеет смысла, и, соответственно, будет только вредить эффективному продвижению.
Ваш сайт состоит из множества различных файлов (около 500 и больше), из которых для посетителя представляет ценность лишь небольшая (контентная) часть. Это статьи, полезные ссылки, возможно и некоторые изображения. Все остальные вспомогательные и не имеющие ценности ни для поисковых систем, ни для пользователя страницы нужно закрыть от индексирования.
К ним могут относиться дубликаты страниц, статистика посещаемости сайта, различные логи, страницы результатов поиска по сайту, администрирование, страницы сервиса баз данных и так далее.
С помощью буквально двух-трех директив файл robots.txt отлично справится с поставленными задачами. Однако, имея в виду, что дело имеется не с человеком, а с машиной, нужно максимально корректно прописать эти директивы, иначе вместо положительного результата можно получить лишь дополнительные проблемы.
Файл robots.txt проще всего создавать в элементарном текстовом редакторе. Блокнот от Windows идеально подойдет для решения поставленной цели.
Директивы robots.txt
Первая директива – это «User-agent:». Она указывает на то, к каким именно поисковым роботам даётся директива. Если указать символ«*», значит ко всем без исключения. На всякий случай так и следует написать. Хотя если разобраться, интересуют чаще всего именно два самых популярных робота поисковых систем Googleи Yandex. Значит так и запишем:
Далее прописывается директива «Disallow:». Это и есть запрещающий оператор, другой (к примеру, разрешающий «Allow:») в данном случае не приемлем.
Если прописывается «Disallow:», значит разрешается все. Если же прописать с наклонной в формате «Disallow: /», значит всё запрещается.
Далее построчно прописываются каталоги и файлы, которые не подлежат индексации. Чтобы понимать, как это работает, стоит сказать, что, к примеру, после такой директивы, как «Disallow: /wp-content» роботы не «полезут» в каталог «wp-content». После «Disallow: /index» также не станут индексировать файл «index.html».
Важно также соблюдение требований к оформлению. Не должен при создании файла использоваться верхний регистр, так как некоторые роботы могут его не распознавать. В первую очередь, это касается названия файла. Помните, что оно должно соответствовать только одному варианту – «robots.txt».
Пример robots.txt сайта 1000rabota.ru
Для большей наглядности и понимания того, как именно должен выглядеть файл robots.txt, стоит изучить пример, приведённый ниже.
User-agent: * Disallow: /wp-admin Disallow: /vote/ Disallow: /2009/ Disallow: /2010/ Disallow: /2011/ Disallow: /2012/ Disallow: /2013/ Disallow: /2014/ Disallow: /2015/ Disallow: /2016/ Disallow: /2017/ Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /xmlrpc.php Disallow: /wp-content/uploads Disallow: /rezervnye-obyavleniya Disallow: /trackback/ Disallow: /tag/ Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: */*/feed Disallow: /*?* Disallow: /?feed= Disallow: /?s= Disallow: /poisk.html$ |
Этот же файл и для того же сайта. Единственное отличие в том, что он создан специально для робота системы Yandex.
User-agent: Yandex Disallow: /wp-admin Disallow: /vote/ Disallow: /2009/ Disallow: /2010/ Disallow: /2011/ Disallow: /2012/ Disallow: /2013/ Disallow: /2014/ Disallow: /2015/ Disallow: /2016/ Disallow: /2017/ Disallow: /wp-includes Disallow: /xmlrpc.php Disallow: /wp-content/uploads Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /rezervnye-obyavleniya Disallow: /trackback/ Disallow: /tag/ Disallow: /feed/ Disallow: */*/feed/*/ Disallow: */feed Disallow: */*/feed Disallow: /*?* Disallow: /?feed= Allow: /feed/zen Disallow: /?s= Disallow: /poisk.html$ Host: 1000rabota.ru Sitemap: //1000rabota.ru/sitemap.xml.gz Sitemap: //1000rabota.ru/sitemap.xml |
После того, как вы укажете все каталоги и файлы, закрытые для индексирования, не забудьте о том, что необходимо прописать URL-адрес своего XML-файла Sitemap. Так это выглядит на примере: «//1000rabota.ru/sitemap.xml». Естественно, там, где указывается ссылка, вы должны вписать адрес исключительно своего сайта.
Только для Яндекса в дополнение приписывается директива «Host:», в которой указывается основной URL вашего сайта. Пример оформления: «Host: 1000rabota.ru», где также должна быть заменена ссылка на адрес вашего сайта.
Пока у вас нет зеркала сайта, эта директива не имеет никакого смысла, но впоследствии это может принести пользу, поэтому лучше прописать сразу и в дальнейшем ни о чём не переживать.
Последнее, но важное замечание. Файл robots.txt должен заливаться в корневой каталог сайта. Это легко проверить, забив в поиск простой адрес://1000rabota.ru/robots.txt (естественно, вы вводите ссылку, которая будет вести на ваш ресурс).
Насколько важен файл robots.txt
Кто-то скажет, что он и без такого файла вполне успешно создал сайт и публикует там контент. Да, безусловно, ресурс может работать и без robots.txt. Но тут есть важное замечание. Если вы захотите зарабатывать на своём сайте, необходимо добиться лучших результатов в продвижении. Благодаря такой манипуляции вы обеспечите себе качественную индексацию только тех страниц и того контента, который должен попасть в выдачу поисковых систем.
Если есть возможность, сформируйте такой файл и загрузите в корневой каталог как можно раньше. Тогда вы с самого начала наберёте хорошую «скорость» и сможете успешно наращивать аудиторию.