Забрана за индексация на части от сайт с robots.txt

Желателно е в главната директория на сайта Ви да поставите файл robots.txt, който служи за филтриране на търсачките и индексираните от тях страници. Имайте предвид, че така повечето търсачки разбират кои сайтове са "сериозни". Файлът съдържа два аргумента. Първият "User-agent" филтрира търсачките, а вторият "Disallow", забранява те да индексират определени от Вас файлове или директории. Като атрибут на първия, най-добре да се постави "*", което ще означава, че правилата ще се отнасят за всички ботове на търсачки.

robots.txt

Ако напишете примерно "User-agent: googlebot", това ще означава, че правилата за забрана се отнасят само до роботът на Google. Като атрибут на "Disallow" се изписва пътят към директория или файл, които не искате да бъдат индексирани. Примерно "Disallow: /", ще означава, че забранявате индексирането на целия сайт. А "Disallow: /images/" или "Disallow: /images.html" ще забрани индексирането на съответната директория или файл. Като пример за изготвянето на въпросния файл, вижте примера по-долу. Той пропуска всички роботи във всички директории.

User-agent: *
Disallow:

При създаването на файла има още няколко допълнителни особености. Ако примерно оставите аргумента "Disallow:" без атрибут, това ще означава, че разрешавате на съответните търсачки да индексират всички директории и файлове. Друга особеност е условното индексиране на файлове и директории, започващи с определени символи. Примерно "Disallow: /image" ще забрани индексирането на всички директории, чийто имена започват с "image", примерно "images". По подобен начин може да се забрани и индексирането на файлове с определено разширение. Пример: "Disallow: *.css".

За съжаление не всички търсачки се съобразяват с написаното в "robots.txt". Поради тази причина не препоръчваме използването му за скриване на важни файлове или директории. Основната роля на файла е изграждането на добър изглед на сайта в търсачките и избягване индексирането на излишна информация. Това малко или много ще доведе до оптимизация на сайта спрямо търсачките, чрез акцентиране само върху най-важната информация. Така, примерно, може да зададете различни критерии за различните търсачки, като се съобразявате с особеностите им.

От скоро в robots.txt файла може да окажете и местоположението на Вашата XML карта на сайта (sitemap.xml). Това, в комбинация с редовното ping-ване на картата при нови страници, прави сайтът Ви изгключително добре описан като структура за търсачките. Повече информация за robots.txt файла може да намерите на адрес robotstxt.org. Ето един пример, който забранява една излишна директория от индексация и показва на бота къде е картата на сайта:

User-agent: *
Disallow: /private/
Sitemap: http://www.example.com/sitemap.xml