Інтернет оновлюється з неймовірною швидкістю.
Щодня в мережі з’являються нові сторінки, видаляються старі, оновлюються новини, блоги, сайти, в інтернет-магазинах з’являються нові товари. Запускаються нові сайти й зникають старі.
Пошуковики намагаються вчасно оновлювати індекс і підтримувати його в актуальному стані, тож пошукові павуки щодня перевіряють оновлення в мережі. Коли пошуковий робот починає процес краулінгу мережі, стартовою точкою служить так званий сід-сайт, за посиланнями якого павук переходить у першу чергу. Але як пошуковики обирають сід-сайти? Це досить важливий момент для всіх, хто займається розкруткою сайтів.
З яких сайтів вигідніше починати краулінг? Facebook чи Twitter? Yahoo Directory чи DMOZ? А може, взагалі з Вікіпедії?
Вибір сід-сайтів дуже важливий, адже він має значний вплив на якість роботи пошуковика та наявність в індексі сторінок різної тематики й географічного розташування. Якщо сід-сайти обрано невірно, якість і релевантність пошуку знижуються.
Патент Yahoo описує процес вибору краулерами сід-сайтів для виявлення адрес інших сторінок мережі. Природно, вибір сід-сайту вважається вдалим, якщо можливе виявлення великої кількості нових посилань, краулінг більшої кількості важливих документів, розподіл сайтів за ринками або категоріями.
У більшості обговорень процесу веб-краулінгу як приклад точок входу й виявлення нових сторінок використовуються Yahoo directory або DMOZ. Проте чи завжди вони достатньо хороші для краулінгу? Може, можливе використання інших сід-сайтів?
Процес вибору сід-сайтів базується на алгоритмі вибору на основі хостів. Цей алгоритм передбачає визначення підмножини хостів, до яких отримує доступ краулер, на основі їх важливості, якості й потенційної віддачі.
Важливість сайту визначається за значенням рівня «довіри хосту» або іншими параметрами, що показують популярність, надійність, якість хоста. Одним з показників може служити PageRank — один з найважливіших параметрів у SEO.
Якість (або брак якості) сайту як потенційного сіда визначається кількістю вихідних посилань, наявністю порнографічного контенту, посиланнями на спам-сторінки чи спамом. Природно, для отримання якісної видачі краулеру потрібно індексувати високоякісні сайти.
Потенційна віддача — потенціал виявлення нових адрес або віддача документів — визначається за порівнянням з попередніми проходами по сайту.
У патенті також зазначено, що зазвичай процес вибору сід-сайту варіюється залежно від країни і регіону, оскільки в кожному регіоні можуть бути свої особливості. Крім того, деякі ринки містять менше хостів і менше важливих хостів, тому щоб домінуючі ринки не витіснили всі інші хости, останнім також віддається частина веб-краулінгу.