Файл robots.txt — гэта асноўны файл, які апісвае правілы апрацоўкі старонак пошукавых робатаў. Гэты файл патрэбен для ўказанні асноўнага імя сайта, карты сайта (sitemap.xml), адкрытых і зачыненых раздзелаў сайта.
Файл robots.txt ўключае наступныя дырэктывы:
- User-agent — дырэктыва якая ўказвае для якога робата ніжэй прапісаныя правілы
- * - усе робаты
- Yandex — асноўны робат Яндэкс
- Googlebot — асноўны робат Google
- StackRambler — пошукавы робат Рамблер
- Aport — пошукавы робат Апорт
- Slurp — робат Yahoo
- MSNBot — робат MSN
- Disallow — дырэктыва забароны частцы сайта
- Allow — дырэктыва дазволу частцы сайта
- Host — дырэктыва ўказанні асноўнага імя сайта
- Sitemap— дырэктыва ўказанні карты сайта (sitemap.xml)
- Crawl-delay — дырэктыва якая паказвае колькі секунд робат можа чакаць адказу ад сайта (неабходная на моцна загружаных рэсурсах, каб робат не палічыў сайт недаступным)
- Clean-param — дырэктыва якая апісвае дынамічныя параметры не ўплываюць на змесціва сайта
Помимо директив в robots.txt используются спец символы:
- * - любай (у тым ліку і пустая) паслядоўнасць знакаў
- $ — з'яўляецца абмежаваннем правілы
Для складання robots.txt выкарыстоўваюцца вышэйпералічаныя дырэктывы і праспяваць сімвалы па наступным прынцыпе:
- Паказваецца імя робата для якога пішацца спіс правілаў
(User-agent: * - правіла для ўсіх робатаў) - Пішацца пералік забароненых раздзелаў сайта для названага робата
( Disallow: / - забарона індэксацыі ўсяго сайта) - Пішацца пералік дазволеных раздзелаў сайта
(Allow: /home/ — дазволены раздзел home) - Паказваецца імя сайта
(Host: crazysquirrel.ru — асноўнае імя сайта crazysquirrel.ru) - Паказваецца абсалютны шлях да файла sitemap.xml
(Sitemap: https:// crazysquirrel.ru/sitemap.xml)
Калі на сайце няма забароненых раздзелаў, то robots.txt павінен складацца мінімум з 4 радкоў:
User-Agent: *
Allow: /
Host: crazysquirrel.ru
Sitemap: https://crazysquirrel.ru/sitemap.xml
Праверыць robots.txt і тое, як ён уплывае на індэксацыю сайта можна з дапамогай інструментаў Яндэкса