Пошуковими системами користуються не лише люди, що шукають інформацію.
До пошукових систем іноді звертаються роботи, яким потрібно дослідити ключові слова, зібрати дані про позиції певних сторінок або якомога більше разів клацнути по контекстній рекламі чи результатах видачі, щоб випередити конкурентів.
Такі роботи використовують ресурси пошуковиків і, крім того, можуть отримати інформацію про користувачів, яку пошукові системи використовують для роботи над формуванням пошукових підказок та алгоритмом ранжування.
Google давно попросив вебмайстрів не користуватися автоматичними програмами, що перевіряють позиції чи додають сторінки. «Такі програми перевантажують сервери і порушують правила користування пошуковиком».
Через виникнення подібних ситуацій багато пошуковиків розробили методи, за допомогою яких можна відрізнити запит робота від запиту людини. Коли пошуковик відстежує запити, він збирає безліч інформації про користувачів. Крім ключових слів, така інформація може включати й метадані — наприклад, час введення запиту, IP-адресу, ланцюжки пошукових запитів, сторінки результатів.
Щоб визначити, чи належить запит користувачеві або роботу, пошукова система використовує дві групи факторів: поведінкові характеристики та фізичні параметри запиту.
Один зі способів дізнатися, ким було задано запит, — відстежити деякі фізичні характеристики запиту. До фізичних параметрів належать обсяг запитів та місцезнаходження. Користувачі не можуть зробити велику кількість запитів за невеликий період часу, на відміну від ботів. Також один користувач не може робити запити з різних точок планети одночасно або з невеликим інтервалом часу. Тому пошуковик визначає ботнет або людину, яка користується інструментом для анонімного пошуку, але не вимкнула cookie. За фізичними параметрами можна визначити автоматичні запити. Однак деякі автоматичні запити імітують запити звичайного користувача. Щоб відрізнити такі автоматичні запити, існують поведінкові характеристики.
До них належать:
- CTR (відстежуються кліки на результати пошуку);
- порядок пошуку (роботи іноді шукають в алфавітному порядку);
- використання спам-слів, звернення до тематики для дорослих;
- велика кількість слів у запиті, особливо в кількох послідовних запитах;
- періодичність запитів;
- використання операторів запитів (часто операторами користуються боти);
- лімітованість категорій (у бота весь ланцюжок запитів належить до однієї або кількох вузьких категорій).
Коли серія запитів здається пошуковику підозрілою, він просить користувача відповісти на питання або розшифрувати CAPTCHA.