Зміст

Під час роботи над технічним SEO перше, що потрібно перевірити та оптимізувати – це файл robots.txt. Цей текстовий файл є невід’ємною частиною практично будь-якого сайту і, як можна здогадатися вже з його назви, призначений саме для роботів. Насамперед, для роботів пошукових систем.

Де знаходиться файл robots.txt

Відкрити файл robots.txt для вивчення дуже просто. Для цього потрібно ввести в адресний рядок браузера домен сайту та через косу межу назву файлу. Виходить такий шлях: mysite.ua/robots.txt. Це говорить про те, що цей файл повинен розташовуватись у кореневій директорії сайту, що є загальноприйнятим стандартом.

До речі, фізично цього файлу на сервері може не бути. Популярні CMS найчастіше генерують його нальоту динамічно, що дуже зручно. Тому якщо ви не знайшли файл у кореневій директорії сайту, це ще ні про що не говорить. Найголовніше, щоб він відкривався за посиланням.

Для чого потрібний robots.txt

Файл robots.txt відомий як стандарт винятків для роботів. Коли пошукова система заходить на сайт, це фактично перший файл, який вона переглядатиме на предмет інструкцій. Тут власник сайту може вказати, які сторінки чи навіть цілі розділи проекту слід сканувати, а які – ні. Таким чином, це одна з можливостей керування пошуковими системами, що цікаво вже саме собою.
На перший погляд, може здатися дивним, що виникає необхідність забороняти роботам щось індексувати на сайті. Адже одна з цілей SEO-просування якраз і полягає в тому, щоб навпаки – забезпечити ефективне сканування та індексацію сайту. Але не все так просто. Заборона сканування частини сторінок допомагає у чотирьох випадках.

1. Закрити технічні сторінки від індексації

На будь-якому сайті багато сторінок. Причому не всі вони містять цінний контент – частина сторінок завжди суто технічна і не має жодного інтересу для відвідувачів. Швидше, якщо технічні сторінки потраплять до індексу та з якихось причин почнуть з’являтися у пошуку, це може відштовхнути.

Це може бути сторінка входу та реєстрації або сторінка подяки за досконале придбання. Було б дивно, якби такі сторінки брали участь у пошуковій видачі. Саме це одне із призначень файлу robots.txt. Тут можна перерахувати всі технічні сторінки, яких доступ з пошукової системи не бажаний.

2. Поліпшити індексацію сайту за рахунок оптимального використання ліміту

Друга можливість пов’язана із лімітами на індексацію. У зв’язку з тим пошуковим системам доводиться обробляти гігантські обсяги інформації, виникає потреба в економії обчислювальних ресурсів. І щоб оптимізувати процес, алгоритми закладаються обмеження. У деяких пошукових систем ці ліміти більші, у інших менше, але вони є.

Основна суть лімітів на індексацію в тому, що пошуковий бот за раз переглядає обмежену кількість сторінок. Якщо сайт при цьому великий, то частині контенту він може дістатися дуже нескоро. Не кажучи вже про своєчасні оновлення та переіндексацію.
Боротися з лімітами допомагає той самий файл robots.txt. Якщо заборонити роботам індексувати все зайве, весь ліміт буде витрачатися з максимальною користю. В результаті покращиться сканування та індексація сайту. Іноді це дуже важливо.

3. Заборонити до індексації контент, що дублюється.

Дублювання контенту на сайті – це майже завжди помилка. Можливо, помилка була допущена в проектуванні архітектури сайту або це істотний недолік структури URL. Іноді дубльований контент з’являється внаслідок інших недоробок.
Виняток становлять ситуації, коли дубльований контент для чогось дійсно потрібний. Наприклад, на сайті йде масштабне тестування варіантів сторінок з однаковим змістом, але різним оформленням, і інакше зробити було не можна. У будь-якому випадку слід явно вказати пошуковій системі на наявність дублів та заборонити їх індексацію.

1

Незважаючи на те, що подібну ситуацію слід вирішувати докорінно і кардинально, іноді не завадить додати контент, що дублюється, у виключення для роботів пошукових систем. Все залежить від ситуації, саме від того, де, як і на якому етапі з’являються дублі на сайті. Якщо можливо скласти короткі інструкції для пошукових систем robots.txt, то це слід зробити.

4. У деяких випадках можна помітно знизити навантаження на сервер

Пошукових роботів існує набагато більше, ніж здається. Причому крім власне десятків різних пошукових систем зустрічаються різні системи з різними цілями. Як варіант, деякі боти можуть просто збирати якусь інформацію, щоб потім її продавати великим корпораціям.

Цікаво, що багато цих ботів також слідують інструкціям, записаним у файлі robots.txt. Тим самим з’являється можливість заборонити цим роботам сканування сайту, а це може означати звільнення деяких ресурсів на сервері.
До речі, іноді варто «відключити» і роботи деяких пошукових систем, які не перебувають у пріоритеті, не дають трафік і не розглядаються як перспективні.

Чи варто цим займатися чи ні – залежить від ситуації. Системи аналітики дозволяють перевірити статистику відвідування сайту роботами. І якщо з’ясовується, що сайт безперервно бомбардують роботи, які вам абсолютно не потрібні, їх можна спробувати знешкодити за допомогою robots.txt.

Як працює robots.txt

Вміст файлу суворо стандартизований, і помилка може спричинити істотні проблеми. На щастя, інструкції мають простий та зрозумілий синтаксис у форматі «ключ: значення». Наприклад, у robots.txt можна записати наступне:

User-agent: *
Disallow: /


Тут є дві інструкції. Кожна інструкція починається з нового рядка. У першому рядку ключ User-agent означає ім’я бота, до якого повинні застосовуватися інструкції нижче. Так, бот пошукового гіганта Google має назву Googlebot, а Facebook – Facebookbot. У цьому випадку стоїть символ зірочки, який символізує всіх роботів без винятку.

У другому рядку ключ “Disallow” означає заборону сканування. Коса межа символізує всі директорії сайту. Відповідно, тут сказано, що всім ботам без винятку заборонено відкривати та індексувати будь-що на сайті взагалі.

Що треба пам'ятати

Інструкції у файлі robots.txt сьогодні мають більш рекомендаційний характер для пошукових систем. Це не суворі інструкції, які є обов’язковими до виконання. Тому покладатися лише на robots.txt не слід. Його можна використовувати, і при цьому практично всі пошукові системи так чи інакше враховують інструкції в цьому файлі. Але разом з тим, при виникненні будь-яких проблем з індексацією, варто знайти серйозніший підхід до вирішення завдання.