К содержимому
Кейсы

Инструмент AI, заменивший команду веб-исследователей

«Примечательно, что данные были впечатляющей чистоты для набора данных такого размера... Файлы были сразу используемы и легко проверяемы. Большое спасибо вам и

Дата

Инструмент AI, заменивший команду веб-исследователей

«Примечательно, что данные были впечатляющей чистоты для набора данных такого размера... Файлы были сразу используемы и легко проверяемы. Спасибо за сильную работу и тщательный контроль качества» - Скотт Клут, основатель и генеральный директор.

Проблема

Coupon Cabin нужны чистые данные о торговцах: политики, социальные сети, сроки доставки, правила отмены. Веб-сайты торговцев все разные. Раньше это делала внутренняя команда вручную.

Сложность: каждый раунд сбора занимает две недели, потом нужно сразу начинать следующий. Бесконечный цикл. По мере роста магазинов нанимать больше людей нереалистично — рабочая нагрузка растёт быстрее, чем команда.

Нужна была автоматизация.

Решение

Мы создали систему на базе AI, которая:

  • Автоматически заходит на сайты торговцев через браузер
  • Находит нужную информацию (политики, контакты, социальные сети)
  • Проверяет источники — каждый факт привязан к конкретному месту на сайте
  • Возвращает данные в JSON — готово для любых систем

3 режима работы:

  • Быстрый и дешёвый (быстро, но немного меньше точности)
  • Сбалансированный (хороший компромисс)
  • Премиум (медленнее, но максимум точности)

Главные вызовы и как мы их решили

1. AI дорогая и медленная

  • Каждый шаг требовал скриншотов и огромные контексты
  • Решение: Интегрировали Google Grounding (быстрее и дешевле) + оптимизация промптов. Сэкономили много денег на LLM.

2. Браузер сложно управлять

  • Десятки браузеров работают параллельно, нужна оркестровка
  • Решение: Python оркестратор с пулами рабочих, управлением профилей и автоматическими перезагрузками.

3. Сайты блокируют ботов

  • Cloudflare, hCaptcha, reCAPTCHA повсюду
  • Решение: Автоматический детектор капчи + 2Captcha сервис, ротация прокси, логика перепопытки.

4. Данные нужны в JSON

  • Google Grounding возвращает Markdown, а не JSON
  • Решение: Два этапа преобразования — сначала Markdown с цитатами, потом конвертим в JSON.

5. Стабильность

  • Много агентов, много шагов, легко что-то сломать
  • Решение: Детальное логирование, статусы задач и повторные попытки на каждом уровне.

Результаты

Автоматизация в масштабе — сложный многоэтапный процесс теперь полностью автоматический

Команда освобождена — вместо ручного сбора данных люди могут делать более ценную работу

Высокая точность — каждый факт проверен и привязан к источнику

Масштабируемость — система управляет десятками параллельных браузеров без потери производительности

Гибкость — можем выбирать между скоростью, стоимостью и качеством

«Спасибо за всю работу. Мы видим большие перспективы в этом решении и воодушевлены переносом данных в production» - Скотт Клут, основатель и генеральный директор.


Результат: система, которая делает работу целой команды веб-исследователей, но автоматически и с идеальной точностью. Масштабируемость без боли.