Зміст

1Пошукова оптимізація передбачає цілу низку обов’язкових заходів щодо усунення помилок на сайті, що просувається. Один з таких кроків – виявлення та усунення дублюючого контенту. Напрочуд, практично жоден сайт не обходиться без дублів. Причин тому безліч, але на кожну з них можна знайти адекватне рішення. Віктор Гуменюк, Team Lead відділу просування сайтів SEO-Studio, розповідає про дублі контенту.

Що таке дубльований контент і звідки він береться

Здавалося б, кожен матеріал на сайті розміщувався в єдиному екземплярі і зайвим копіям взятися просто не звідки. Насправді механізм появи дублів не такий очевидний і тут є куди «копнути».

Однією сторінкою є одна унікальна URL-адреса. Справедливість такої вимоги підтверджує сама інтуїція, адже цілком природно, що веб-сторінка не може знаходитись у різних місцях одночасно (за різними URL-адресами). Але якщо на зорі становлення інтернету ця вимога ще дотримувалася, то з появою динамічних сайтів і просунутих систем управління контентом (CMS) виявилося, що будь-яка сторінка може бути доступна за кількістю URL-адрес одночасно. Саме це створює проблеми.

Коли пошукова система знаходить кілька URL-адрес, які ведуть на той самий контент, виникає дилема. Чи вважати ці адреси однією сторінкою чи різними? Особливо якщо контент все-таки трохи відрізняється, наприклад, допоміжними інформаційними блоками. І якщо потрібно ці сторінки «склеїти», то яку URL вважати основною?

Типові ситуації

Існує безліч ситуацій, які призводять до появи контенту, що дублюється. Розглянемо найпоширеніші їх, які можна назвати типовими.

  1. Додавання матеріалу до різних категорій. Якщо використовується так звана «людино-зрозуміла URL», в якій зафіксована категорія матеріалу, система управління контентом згенерує кілька URL’ів, по одному для кожної з категорій. В результаті з’явиться більше одного посилання на один і той самий матеріал (така проблема зустрічається вже досить рідко);
  2. Окрема сторінка для друку. Сторінка для друку відрізняється від основної сторінки лише стилями оформлення. Але головне тут, що відмінності все-таки є, і пошукова система повинна буде вибрати URL для індексації та відображення в пошуковій видачі на власний розсуд (така проблема теж зустрічається рідко);
  3. Ідентифікатори сеансів. Для того, щоб відстежувати відвідувачів на сайті, часто використовуються параметри в посиланні, які можуть містити безліч корисної інформації. Це призводить до того, що система генерує безліч унікальних посилань на ті самі сторінки. Якщо відвідувач залишить посилання з своїм ідентифікатором сеансу, пошукова система це посилання знайде і тим самим виявить ще один зайвий дубль;
  4. Параметри сортування. Для відстеження параметрів сортування нерідко використовують ту саму URL-адресу. Як і в попередньому прикладі, це призводить до створення дублів. Наприклад, товари можуть бути відсортовані за алфавітом, за датою додавання або за ціною. Враховуючи URL без параметрів (сортування за замовчуванням), виникає вже 4 посилання на ту саму сторінку;
  5. Пагінація для коментарів. Деякі CMS використовують пагінацію для коментарів, щоб розбити їх на кілька сторінок. При переході на іншу сторінку, основний контент буде зберігатися тим самим, але на посиланні з’явиться додатковий параметр. Цей параметр буде унікальним для кожної сторінки. Відповідно, кожна така сторінка цілком справедливо може сприйматися як дублікат основного контенту з незначними змінами в коментарях;
  6. Домен з і без www. Типова ситуація, коли домен доступний у двох варіантах одночасно – з приставкою “www” і без неї. Останнім часом виникла варіація цієї проблеми, пов’язана із переходом на новий протокол. Сторінки можуть бути доступні в один і той же час за протоколом “http” та “https”;
  7. Довільний порядок параметрів. Якщо сайт не використовує людино-зрозумілі URL, посилання на сторінки генеруються у вигляді набору параметрів «ключ=значення». При цьому ці параметри можна довільно змінювати місцями, що призводить до створення зайвих дублів.

Як перевірити сайт на дублі

Хороший спосіб перевірити сайт на наявність дублів, використовувати консоль для веб-майстрів Google. Після входу в систему, спочатку потрібно відкрити розділ «Вигляд у пошуку», а потім – «Оптимізація HTML». Тут ви можете побачити вичерпний список дублікатів, знайдених на сайті. Зрозуміло, для того, щоб скористатися цим інструментом, знадобиться обліковий запис Google та підтвердження прав на сайт, який передбачається досліджувати.

2

Але якщо ви тільки готуєте сайт і його закрито від індексації, за допомогою консолі для веб-майстрів Google ви не зможете знайти дублі. Ми в SEO-Studio використовуємо кілька платних програм для внутрішньої оптимізації. Одна з таких програм – Screaming Frog. Рекомендуємо!

3

Програма може шукати дублі в мета-тегах, заголовках h1-h2, а також має функцію парсингу html-елементів сторінки через мову xpath, сss-селектори та через регулярні вирази.

4

Як варіант можна спробувати використати вбудовані пошукову систему можливості просунутого пошуку. Це має сенс, якщо досліджуваний сайт не був доданий до консолі для веб-майстрів і, відповідно, інформація про нього недоступна. Шаблон для пошуку виглядає так: site:домен intitle:”фраза для пошуку”. У пошукову видачу потраплять усі сторінки із зазначеного сайту (у тому числі, звичайно ж, і дублікати), що містять фразу, яку шукаєте.

Як не допустити дублювання контенту

Як і в більшості інших ситуацій, краще запобігти появі проблеми, ніж боротися з наслідками. Знаючи причини, з яких з’являються дублікати контенту, можна вжити відповідних заходів. Наприклад:

  1. Не використовуйте ідентифікатори сеансів в URL-адресах.
  2. Замість окремої сторінки для друку, використовуйте таблицю стилів (CSS) для друку, що динамічно підключається.
  3. Навчіться правильно закривати пагінацію коментарів;
  4. Використовуйте скрипт, що вибудовує параметри в URL-адресах у передбачуваному, строго визначеному порядку.
  5. Для відстеження переходів використовуйте хеш замість параметрів в URL-адресах.

Способи боротьби з дублікатами

Що робити, якщо дублікати контенту вже знайдені на сайті? Існує кілька ефективних способів боротьби із цією проблемою:

  1. Перенаправлення 301;
  2. Явна вказівка канонічної сторінки;
  3. Заборона на індексацію зайвих посилань.

Перенаправлення 301

Одне з найчастіше використовуваних рішень для боротьби з контентом, що дублюється, – це використання 301 перенаправлення. Це постійне перенаправлення, яке зазвичай використовується для того, щоб допомогти відвідувачам та пошуковим системам знайти сторінку, яка була переміщена на нову URL-адресу.

Налаштування переадресації з дублюючих сторінок також дозволить відвідувачам та пошуковим системам визначити сторінку, яку слід вважати основною. Тим самим пошукова система зможе коректно «склеїти» дублікати і проблема буде вирішена.

Після редиректу потрібно простежити, щоб у коді сайту не залишилися посилання з кодом відповіді 3**.

Явна вказівка канонічної сторінки

Атрибут «canonical» використовується разом із тегом «link», щоб повідомити пошукову роботу, яку зі сторінок вважати основною (канонічною).
Як і перенаправлення 301, цей атрибут передає вагу посилань з дублікатів на основну сторінку. Однак, на відміну від перенаправлення, тег використовувати простіше. Недолік – атрибут «canonical» не завжди вирішує проблему.

Заборона на індексацію зайвих посилань

Інший метатег, який можна використовувати для боротьби з дублікатами, це тег robots з атрибутом content = noindex, follow. У деяких ситуаціях цей тег практично незамінний. Наприклад, його дуже зручно використовувати для контенту, який розбитий на кілька сторінок.