ГАРАЖ

Основи Internal Linking для найменших від куратора Product SEO

Якщо ви не можете знайти сторінки вашого сайту в Google чи створюєте крутий evergreen контент у блог, але з часом він втрачає трафік з пошукових систем, — можливо, у вас проблеми з внутрішнім перелінкуванням. Куратор курсу з пошукової оптимізації Product SEO Владислав Моргун детально розповідає, що таке PageRank і як ці знання використати на практиці при проєктуванні структури сайту.
хлопець стрибає біля ноутбуку

Як можна уявити інтернет

Для користувача інтернет — це величезна кількість текстових веб-сторінок (для спрощення поки що забудемо про зображення, відео, css, js тощо), які ми назвемо документами. Уявимо, що ми взяли олівець і нанесли кожен цей документ на лист паперу у вигляді крапок. Далі ми знаємо, що ці документи зв'язані між собою посиланнями*, тож проведемо між крапками стрілки.
У HTML (Hyper Text Markup Language) - <a href=" https://prjctrmag.com/">prjctrmag</a>, де <а> – тег гіперпосилання, hreflang="" – атрибут тега а з адресою, prjctrmag – анкорний текст.
граф
Таким чином ми отримали «граф» — математичний об'єкт, що складається з множини точок, які називають вершинами, та зв'язків між ними — ребрами. Оскільки посилання йде від однієї сторінки до іншої, тобто зв'язок спрямований, то такий вид графів називають орієнтованим.

Увесь інтернет можна уявити у вигляді такого графа, але в цій статті розглянемо лише частину графа (підграф) — наш сайт.
підграф

Аналіз графів і PageRank

Пошукові системи у 90-х використовували алгоритми пошуку за ключовими словами. Це спричинило те, що якість відповідей була на низькому рівні, та ще й маніпулювати результатами пошуку таких систем було не складно, наприклад, якщо взяти будь-який текст і додати в нього тематичні фрази. Виходом з цієї ситуації були процеси:

а) подальшого розвитку існуючих підходів,
б) створення концептуально нових алгоритмів.

Виявилось, що ускладнення пошукових алгоритмів надали можливість використовувати нові параметри для оцінки сторінок, що значно підвищили якість результатів пошуку. Наприклад, при аналізі зв'язків усередині графа можна дізнатися з певною ймовірністю, які документи важливі, впливові, популярні, які є першоджерелами, а які ні.

Так у 1996 році засновники пошукової системи Google Ларрі Пейдж і Сергій Брін у рамках науково-дослідницького проекту створили сімейство алгоритмів оцінки важливості веб-сторінок під назвою PageRank (PR). Саме ці алгоритми стали основою для подальших успіхів Google на світовій арені інформаційно-пошукових систем, а головні ідеї наукової роботи і досі використовуються для ранжування документів*.
Ранжування — визначення порядку відображення сторінок у пошуковій системі за запитом користувача.
Основна концепція PR полягає в тому, що моделюються подорожі користувачів по інтернет графу, які починають свій шлях з випадкових веб-сторінок і переходять далі за посиланнями. PR має кількісну та якісні характеристики:

  1. кількісна: чим більше користувачів дійде до конкретної сторінки, тим ця сторінка важливіша. Спрощено можна сказати, що кожна сторінка в інтернеті потенційно може бути відвідана користувачем, але чим більше посилань на сторінку – тим вищою є ймовірність її відвідування.

  2. якісні характеристики: анкорний текст посилання, текст на сторінці, з якої йде посилання, місце розміщення посилання на сторінці тощо.

На цьому етапі потрібно самому собі поставити декілька запитань:
1
чи можу я дійти до всіх сторінок свого сайту, якщо використаю тільки кліки на посилання?
2
чи зв'язані мої сторінки тематичними посиланнями?
3
який розподіл вхідних посилань між моїми сторінками? (на які сторінки більше посилань, а на які менше)

Як самостійно перевірити внутрішню перелінковку?

Крок 1. Використання краулерів

Пошукова система збирає дані щодо сторінок за допомогою краулерів*. Аналогічне програмне забезпечення є і в арсеналі SEO спеціалістів. Наприклад, Netpeak Spider (Desktop Windows Software) чи JetOctopus (SAAS) та інші.
Пошуковий робот (краулер, crawler) — програма, що є складовою частиною пошукової системи і призначена для перебору сторінок інтернету (сканування) з метою внесення інформації про них у базу даних пошукової системи (індексація). Наприклад, GoogleBot, BingBot, AhrefsBot та інші.
Наше основне завдання – зімітувати поведінку бота і зібрати дані графа. Раджу проводити сканування з різними налаштуваннями і порівнювати результат:
1
Сканування з використанням рекомендацій із файлу robots.txt і без, бо пошукова система може ними нехтувати.
2
Сканування з JavaScript рендерингом і без.
3
Сканування, починаючи з головної сторінки чи обходячи sitemap.xml
Спеціальний файл robots.txt розташований у кореневому каталозі сайту: веб-майстер указує в ньому, які сторінки й дані не слід сканувати пошуковим роботам. Завжди в корені домену https://domain.com/robots.txt або суб-домену https://blog.domain.com/robots.txt

Sitemap.xml – файл-рекомендація, що дозволяє повідомити пошуковій системі, як організований контент на вашому сайті. Пошукові роботи переглядають цей файл, щоб більш точно індексувати сторінки. Можна використовувати для надання системі Google метаданих про ваші сторінки (дата останніх змін, періодичність, важливість сторінки).
використання краулерів
Тепер ми можемо подивитися на PageRank і порівняти значення в залежності від налаштувань. Звісно, він порахований без урахування зовнішніх посилань і з використанням старої формули з відкритих патентів, що скоріше за все в саме такому вигляді давно не використовується в пошуковій системі. Але ці дані все одно можна використовувати через те, що підхід залишається той же.

Відсортуємо від більшого до меншого значення PR і звернемо особливу увагу на важливі, з точки зору бізнесу і конверсії, сторінки. Зазвичай, якщо є різкий спад між PR, то потрібно заглибитись у причини цього.
використання краулерів

Крок 2. Аналіз логів сервера і даних Google Search Console

запит
При кожному запиті від користувача чи бота до веб-сервера (якщо було налаштовано ;) ) йде запис у лог сервера (текстовий файл, журнал запитів).
схема надсилання запиту
Якщо ми проаналізуємо ці записи та порівняємо й об'єднаємо з краулінгом з Крок 1, то можемо дізнатися, які сторінки пошукова система повинна була знайти, але не знайшла. Чи навпаки: можливо, пошуковик якимось чином потрапив, наприклад, до адмінпанелі. Але про це — детальніше на курсах факультету Data Science у Проджекторі.

Або ж можна почати з звіту Crawl Stats у Google Search Console.
графік
Змінюємо структуру сайту — перевіряємо реакцію пошуковика.

Важливо: не забувайте перевіряти IP адреси через Reverse DNS, що Googlebot справжній для чистоти рішень.
Крок 3. Аналіз веб-графів
У великих проєктах використовують різне програмне забезпечення/бібліотеки для:

1. аналізу графів на кількість компоненту зв'язності;
2. для вилучення випадкових вершин і тестування стійкості;
3. для знаходження гігантської компоненти.

Але — це вже не матеріал для початківців, а цілий напрям для розвитку.
Більше теорії, практики та корисних інструментів (як-от добірка Chrome-плагінів для SEO-спеціалістів) можна отримати на курсі Product SEO.

Текст та ілюстрації: Влад Моргун
Фото: Наталія Азаркіна
Гараж
Сподобалась підбірка?