Зміст

Традиційний погляд на копірайтінг полягає в тому, щоб писати для людей, а не для роботів. З іншого боку, якщо уважніше придивитися до рекомендацій пошукових систем, не можна не помітити, що більшість з них рекомендують враховувати той факт, що текст аналізуватиметься машиною. Отже, писати треба не тільки для людей, а й для роботів, зокрема?

Про які саме рекомендації пошукових систем йдеться

Пошукові системи наполегливо просувають семантичну розмітку, зокрема shema.org. Були створені й інші альтернативні варіанти (більшість з яких не прижилися, але сам факт їхньої наявності може розповісти багато про що). Отже, звідси можна зробити висновок у тому, що потрібно зробити те щоб текст був зрозумілий роботам. Причому, як і бачити, у цьому напрямі постійно докладаються значних зусиль.

Крім shema.org, пошукові системи рекомендують максимально використовувати нативну семантику, закладену в стандарт HTML5, дотримуватися чіткої структури тексту, виділяти важливі моменти за допомогою спеціальних тегів, використовувати підзаголовки та списки тощо. Значить, мало просто написати текст, який буде зрозумілий людині?

Звичайно, пошукові системи прагнуть до того, щоб розуміти текст природною мовою якнайкраще. Але сказати, що Google розуміє природну мову, це явне перебільшення. Розробники досягли чималих успіхів у цьому напрямі, але до ідеалу ще дуже далеко. Ось чому ми не можемо просто писати для людей, не зважаючи на роботів.

Вихідна точка

Щоб зрозуміти, що взагалі відбувається, потрібно повернутись на крок назад.

Спочатку пошукові системи при аналізі контенту покладалися виключно на ключові слова та посилання. Ключові слова у розумінні пошукової системи – це не більше ніж набір символів, збудованих у певну послідовність. Обробка мови зводилася до того, щоб зробити морфологічний аналіз тексту, щоб врахувати невеликі варіації (словоформи).

1

Щоб текст був релевантним запиту, потрібно було зробити так, щоб послідовність символів у пошуковому рядку користувача та послідовність символів на цільовій сторінці збігалися між собою, бажано – аж до останнього символу. Якоїсь миті, як удосконалення розробники дозволили системі враховувати синоніми. І це, мабуть, усе.

Така система працювала непогано, але особливо не вражала. Однак останнім часом ми бачимо суттєвий прогрес. Робота пошукової системи та супутніх сервісів сьогодні справді може вразити.

Що змінилося

Пошукові системи на чолі з Google за останній рік значно просунулися вперед.

  • Якість пошукової видачі стала значно вищою, що може помітити кожен активний користувач інтернету. Результати ранжуються адекватно, практично ніколи перші позиції не займають сайти, які на те не заслуговують.
  • Розширені сніпети стали значно кращими і охоплюють більше тематик.
  • У пошуковій видачі з’являються результати, які не містять запитуваних ключових слів (але у своїй ці результати завжди релевантні запиту);
  • Голосові помічники та діалогові системи дуже швидко розвиваються і набирають неймовірної популярності у світі.
  • Багато сервісів Google останнім часом стають доступними багатьма мовами.
  • Істотного прогресу було досягнуто в галузі машинного перекладу. Google Translate показує чудовий результат при перекладі майже з будь-якої мови будь-якою іншою.


Ці приклади наочно показують, що сталося щось справді суттєве. А саме – був здійснений серйозний прорив у розумінні машиною природної мови. На даний момент тексти для пошукового робота – це вже не просто послідовність символів, як колись, а щось більше.

Граф знань та семантика

Очевидно, все змінилося 1 липня 2018, коли Google запустив нову систему індексації Mobile First. Саме з цього моменту почалися найцікавіші зміни, про які йдеться. Можна припустити, що з великою часткою ймовірності мета була не тільки в тому, щоб зробити акцент на мобільних пристроях, але заодно оновити фундаментальні основи аналізу контенту. Принаймні результати говорять саме про це.

2

Основним є Google Natural Language – система аналізу природної мови, демоверсія якої доступна публічно і яку можна протестувати на офіційному сайті Google. Суть полягає в тому, що Google будує граф знань та вичленює з тексту сутності, після чого встановлює зв’язки між цими сутностями.

Таким чином, йдеться не про послідовності символів, а про абстракції вищого порядку, які дозволяють роботу значно краще розуміти природну мову. Цей алгоритм багаторівневий і включає кілька етапів:

  • Токенізація та розбиття пропозиції на окремі терміни:
  • Визначення частин мови;
  • Визначення лем (словоформ);
  • встановлення взаємозв’язків між окремими токенами;
  • Визначення сутностей та предметна категоризація;
  • Розбір залежностей;
  • Зважування важливості кожного токена у реченні;
  • Визначення інтонації та емоційного забарвлення;
  • Функціональний аналіз висловлювання (мета);
  • визначення типу контенту (рецепт, інструкція, подія, рецензія);
  • Вторинне розуміння тексту з урахуванням його структури.


Що важливо розуміти – сутності не залежать від мови. Граф знань Google будується так, щоб бути повністю незалежним від слів. Власне, слова (і, якщо розібратися глибше, навіть візуальні образи) – це лише символи, які вказують на справжнє значення (сенс), який у свою чергу є переважно чистою семантикою (графом знань).

Алгоритм заснований на семантиці та аналізі сутностей значно ефективніший, тому що він дозволяє системі шукати релевантний контент ігноруючи «шум». Під «шумом» розуміються особливості тієї чи іншої мови, орфографія, стиль письма, конкретні ключові слова та терміни тощо. Пошукова система стає в змозі шукати сенсу, а не ланцюжка із символів. Цим пояснюється значний прогрес, який можна спостерігати останнім часом практично у всіх сервісах Google.

Проблеми

Основна проблема, з якою доводиться стикатися розробникам пошукової системи при переході на сутність та семантичний розбір контенту – це брак обчислювальних ресурсів. Незважаючи на те, що Google має величезні ресурси, вони не є нескінченними, в той час як кількість контенту, який потрібно обробити, колосально і, більш того, збільшується день у день.

Інша проблема пов’язана з особливостями машинного навчання та нейронних мереж. Справа в тому, що штучний інтелект, який використовується пошуковими системами, працює таким чином, що будь-який результат його роботи має імовірнісний характер.

Коли пошукова система розпізнає на зображенні якийсь об’єкт або визначає сутність у тексті, це означає, що існує висока ймовірність, що цей об’єкт є чимось. Наприклад, система може визначити, що з ймовірністю 44% у тексті йдеться про телефон, але з ймовірністю 36% йдеться про гелікоптер. При цьому завжди існує ненульова ймовірність, що йдеться про будь-який інший об’єкт, який тільки може існувати в природі. Це призводить до того, що пошукова система часто не має впевненості в тому, про що йдеться.

Нарешті, враховуючи все сказане вище, можна сформулювати деякі практичні поради про те, як писати для роботів, щоб просувати контент легше і простіше.

Як писати для роботів

  1. Поєднуйте питання з відповідями. Питання найчастіше є ключовою фразою для пошуку. Але чи легко знайти пошуковій системі відповідь у вашому контенті? Якщо питання знаходиться на початку статті, а відповідь у середині, це може ускладнити розуміння. Робот може вирішити, що він просто не в змозі знайти відповідь і з високою ймовірністю помилиться. А це означає – цей контент не буде високо ранжуватися, навіть якщо він чудової якості. Наприклад: Що таке SEO? SEO це – (і далі йде чітке визначення, після чого можна дати розгорнуту відповідь, а потім позначити наступне питання)». Особливо це важливо для розширених сніппетів та голосового пошуку.
  2. Уникайте неясних займенників. Такі слова як “цей”, “ці”, “це”, “він”, “воно” можуть істотно утруднити розуміння тексту. Особливо коли в одному реченні зустрічаються кілька займенників, кожен із яких посилається на різні сутності. Навряд чи Google здатний впевнено розбирати такі пропозиції з усіма наслідками, що звідси випливають.
  3. Пишіть простіше. Можна стати надто розумним для пошукової системи. Щоб цього не сталося, є сенс писати контент так просто і ясно, начебто читатиме його дитина. У MS Word існує функція визначальна зручність читання тексту, яка може допомогти.
  4. Усувайте неоднозначності. Наприклад, якщо йдеться про художній твір, в описі слід уточнити: про книгу йдеться або про екранізацію. Якщо про екранізацію, то про яку саме. Також слід уточнювати одиниці виміру. Назви населених пунктів часто мають двійників, одиниці виміру бувають різними в різних ситуаціях.


Розуміючи загальний напрямок, у якому рухаються пошукові системи та деякі особливості цього процесу, не так складно створювати відмінний контент з урахуванням пошукових роботів. Якщо говорити зовсім коротко – для роботів слід писати якомога простіше, щоб спростити їм завдання з розбору семантики та вилучення сенсу.