Для чего нужен файл robots.txt?

Для того чтобы задать правила поведения для поисковых роботов, используется файл robots.txt. С его помощью вы можете влиять на процесс индексации сайта. Сканер поисковой машины будет искать этот файл в корневом каталоге вашего сайта и, обнаружив, исполнит содержащиеся в нем инструкции; в противном случае паук будет индексировать все, до чего сможет дотянуться.

Чаще всего файл robots.txt используют для ограничения трафика от сканеров поисковых систем, а также для защиты авторских прав. Инструкции в этом файле сообщают роботам, на какие страницы можно переходить для индексации, а на какие нет. Если на вашем сайте размещено много изображений (например, фотоальбомы), сканеры таких поисковиков как Яндекс.Картинки проиндексируют их и включат в свою базу данных.

Это, казалось бы, отрадное явление иногда имеет побочные последствия: при обнаружении и просмотре ваших изображений в поисковой системе может возникнуть превышение предельной пропускной способности и как следствие отказа в обслуживании. Предотвратить подобные неприятности можно при помощи файла robots.txt, который запретит паукам поисковых систем обрабатывать и индексировать ваши изображения и их расположение.

Если вы владелец интернет-магазина, продающего программное обеспечение, или другой уникальный информационный продукт, то поисковые системы могут найти его и установить факт наличия у вас прав на данную интеллектуальную собственность. Однако некоторые сообразительные пользователи способны воспользоваться этим, и исхитриться загрузить его бесплатно.

И в этом случае поможет файл robots.txt, запрещающий роботам находить и определять расположение вашего продукта или определенного файла. Чтобы создать файл robots.txt, нужен самый простой текстовый редактор типа Windows Блокнот и понимание того, какие части вашего сайта должны или не должны быть найдены и проиндексированы сканерами поисковых систем.

Создание файла robots.txt

1) Откройте любой текстовый редактор.

2) Введите User-agent: * (данная строка указывает, пауки каких поисковых систем должны подчиняться указанному правилу. Символ * означает. что команда относится ко всем роботам).

3) Чтобы запретить всем роботам индексировать изображения, расположенные в каталоге /images/, добавьте в текстовый документ строку: Disallow: /images/. Список всего, расположение чего роботам запрещено определять, можно продолжить в данной строке.

4) Чтобы запретить роботам индексировать определенный файл, добавьте строку: Disallow: /directory/faile.html

5) Сохраните файл и назовите его robots.txt

6) Загрузите созданный файл в корневой каталог. Теперь файл robots.txt запрещает паукам поисковых систем определять расположение и индексировать указанный вами файл.

Дополнительно:

Следует иметь ввиду, что не все роботы учитывают предписание robots.txt. Никаких гарантий на этот счет нет. Более надежно можно запретить доступ к любой папке при помощи файла htaccess. Доступ к файлу robots.txt открыт для всех. Некоторые начинающие веб-мастера ошибочно думают, что, внеся в список robots.txt свои секретные папки, они тем самым закроют публичный доступ к ним, но это большое заблуждение; напротив, это лишь привлечет внимание.

Фактически некоторые зловредные роботы специально проверяют robots.txt на наличие именно таких директив. Файл robots.txt можно использовать для того. чтобы облегчить сканерам поиск карты сайта. Для этого добавьте следующую строку: Sitemap: ваш сайт/sitemap.html Для упрощения создания файла robots.txt можно воспользоваться многочисленными генераторами файла robots.txt.

По материалам сайта http://raskrutysam.ru

Понравилась статья? Поделиться с друзьями: