Приймаємо нові проєкти на II квартал 2026 — старт за 5 робочих днів 19 років практики · 500+ сайтів у власній базі для лінкбілдингу Безкоштовний експрес-аудит за 24 години — звіт у Telegram SEO + Розробка + Реклама під ключ · прозорі звіти щомісяця
Залишити заявку
← На статті
СТАТТІ

Як визначається сід-сайт для пошукових роботів

Автор
1 хв читання

Інтернет оновлюється з неймовірною швидкістю.

Щодня в мережі з’являються нові сторінки, видаляються старі, оновлюються новини, блоги, сайти, в інтернет-магазинах з’являються нові товари. Запускаються нові сайти й зникають старі.

Пошуковики намагаються вчасно оновлювати індекс і підтримувати його в актуальному стані, тож пошукові павуки щодня перевіряють оновлення в мережі. Коли пошуковий робот починає процес краулінгу мережі, стартовою точкою служить так званий сід-сайт, за посиланнями якого павук переходить у першу чергу. Але як пошуковики обирають сід-сайти? Це досить важливий момент для всіх, хто займається розкруткою сайтів.

З яких сайтів вигідніше починати краулінг? Facebook чи Twitter? Yahoo Directory чи DMOZ? А може, взагалі з Вікіпедії?

Вибір сід-сайтів дуже важливий, адже він має значний вплив на якість роботи пошуковика та наявність в індексі сторінок різної тематики й географічного розташування. Якщо сід-сайти обрано невірно, якість і релевантність пошуку знижуються.

Патент Yahoo описує процес вибору краулерами сід-сайтів для виявлення адрес інших сторінок мережі. Природно, вибір сід-сайту вважається вдалим, якщо можливе виявлення великої кількості нових посилань, краулінг більшої кількості важливих документів, розподіл сайтів за ринками або категоріями.

У більшості обговорень процесу веб-краулінгу як приклад точок входу й виявлення нових сторінок використовуються Yahoo directory або DMOZ. Проте чи завжди вони достатньо хороші для краулінгу? Може, можливе використання інших сід-сайтів?

Процес вибору сід-сайтів базується на алгоритмі вибору на основі хостів. Цей алгоритм передбачає визначення підмножини хостів, до яких отримує доступ краулер, на основі їх важливості, якості й потенційної віддачі.

Важливість сайту визначається за значенням рівня «довіри хосту» або іншими параметрами, що показують популярність, надійність, якість хоста. Одним з показників може служити PageRank — один з найважливіших параметрів у SEO.

Якість (або брак якості) сайту як потенційного сіда визначається кількістю вихідних посилань, наявністю порнографічного контенту, посиланнями на спам-сторінки чи спамом. Природно, для отримання якісної видачі краулеру потрібно індексувати високоякісні сайти.

Потенційна віддача — потенціал виявлення нових адрес або віддача документів — визначається за порівнянням з попередніми проходами по сайту.

У патенті також зазначено, що зазвичай процес вибору сід-сайту варіюється залежно від країни і регіону, оскільки в кожному регіоні можуть бути свої особливості. Крім того, деякі ринки містять менше хостів і менше важливих хостів, тому щоб домінуючі ринки не витіснили всі інші хости, останнім також віддається частина веб-краулінгу.

Автор блогу GoodWeb.