Мы уже неоднократно поднимали мысль о том, что алгоритмы парсинга становятся всё сложнее и сложнее. И проблема не столько в защите от ботов, хотя она тоже присутствует и постоянно совершенствуется, а в том, что сама по себе процедура создания сайтов стала сложнее. Сайты перестали строить из простого HTML-кода. Теперь это полноценные веб-приложения, которые работают с огромным объёмом JavaScript-кода и с распределённой инфраструктурой CDN-серверов (для доставки статического контента).
За построение интерфейса (фронтэнд) отвечают специальные конструкторы, такие как Jekyll, Hugo и прочие. А в их основе комплексные фреймворки: React, Vue, Angular и т.п. Все они дают на выходе крайне сложный динамический код, в котором иногда невозможно отследить хоть какую-то структуру.
Итак, этот материал о будущем и о тенденциях в веб-парсинге — для понимания того, как стоит выстраивать механизмы обхода систем защиты от ботов.
Состояние веб-скрапинга в 2025 году
Раньше веб-скрапинг ассоциировался в первую очередь с анализом структуры HTML-кода страниц. Для этих задач с головой хватало таких библиотек, как BeautifulSoup или lxml. Простейшие сайты вообще отдавали своё содержимое прямо в теле HTTP-ответов, поэтому для сбора данных можно было задействовать простейший клиент, например, Python requests или node-fetch.
Но к 2025 году ситуация изменилась и причём кардинально. Сегодня сайты всё чаще строятся как динамические SPA-приложения, в которых значительная часть контента загружается непосредственно в браузере — через JavaScript.
Теперь нельзя просто так взять и спарсить сайт, нужно сначала ещё как-то получить итоговую версию HTML-страницы — она формируется динамически и сильно зависит от действий пользователя.
От парсинга HTML до эмуляции браузера и не только
В настоящее время основным инструментом для парсинга становятся headless-браузеры. Пока страница сайта не отработает в реальном браузере (в его JavaScript-движке), вы не сможете получить результирующий HTML-код. Соответственно, и спарсить данные будет невозможно.
Если не использовать движок браузера, то вместо HTML вы получите ссылки на загрузку списка JavaScript-скриптов. И больше ничего. Да, оформлены они будут по всем канонам HTML, но самих данных здесь не будет. Более того, скрипты могут подгружать другие скрипты, а те в свою очередь очередные и так далее — как при сборке матрёшки (в рекурсии).
Чтобы начать взаимодействовать с браузерами из кода, нужен специальный программный интерфейс. За API отвечают специальные библиотеки, такие как Puppeteer, Playwright или Selenium. О каждой из них мы уже рассказывали с примерами кода.
Так как многие сайты завязывают свои функции на подписки и авторизацию в аккаунте, то при массовой работе с профилями точно потребуются специальные инструменты для ротации цифровых отпечатков. Как раз для этого и придумали антидетект-браузеры.
Более того, современные системы защиты от ботов умеют анализировать поведение и действия пользователей, поэтому крайне важно имитировать «человечность»: шевелить курсовом, посимвольно заполнять поля, скроллить страницу и прочее.
Рост популярности API для веб-скрапинга
Из-за того, что стартовый набор для любого парсера получается фактически одинаковым, это связка из headless-браузера, библиотеки веб-драйвера и ротируемых прокси (для смены местоположения и обхода блокировок), стали набирать популярность готовые веб-сервисы, которые обеспечивают готовую рабочую инфраструктуру.
То есть браузер и прокси вы можете получить в формате «под ключ». Общение с такими удалёнными контейнерами осуществляется по специальному API — API для веб-скрапинга. Такой интерфейс часто включает наборы команд одновременно для управления браузером (какие страницы открывать, где и что заполнять) и прокси (из какой точки мира и с какого типа устройства нужно подключаться).
Отдельные сервисы умеют работать без API — через веб-интерфейс, с загрузкой списка целевых страниц и со скачиванием итоговых таблиц с данными.
Что может быть проще? Отдал серверу список сайтов/страниц на парсинг, задал параметры локации (откуда подключаться — из какой страны, региона или города) и просто забрал готовую структурированную информацию. Профит!
Остаётся только оплатить подходящую подписку и не заморачиваться с написанием своих скриптов и развёртыванием серверов.
Пример такого готового парсера — Froxy Scraper, с предоплатой за пакеты запросов/токенов. Примеры предметных инструкций, как с его помощью можно собирать данные из поиска Google или с торговой площадки eBay.
Веб-скрапинг с ИИ: что реально, а что просто хайп
Что такое веб-скрапинг на основе ИИ? Технически это задействование технологий искусственного интеллекта в процессе извлечения структурированных данных. Например, можно привлечь нейросеть для распознавания скриншотов или для создания описаний образов на картинках и в видео, для транскрибации аудио, для поиска повторяющихся паттернов в вёрстке и т.п. ИИ вполне может работать с исходным кодом всей страницы или отдельных блоков.
Возвращаясь к тенденциям защиты от парсинга: некоторые web-сервисы научились уникализировать HTML-структуру для каждой отдельной страницы, например, за счёт замены стандартных CSS-классов на идентификаторы, которые генерируются для каждой новой сессии.
В этом случае невозможно вычленить повторяющийся паттерн, гораздо легче сразу отдать данные на анализ в нейросеть. Она сама найдёт в каком блоке вставлена цена, где заголовок товара, где оценка рейтинга и т.п. А данные может отдать в структурированном виде — сразу с разметкой (JSON, XML и т.п.).
Преимущества и ограничения ИИ веб-скрапинга
Основные плюсы веб-парсинга с ИИ можно обозначить так:
- Возможность работы со сложной динамической вёрсткой. Нейросеть «видит» результирующий код, поэтому может вычленять смысловые блоки и находить нужные элементы без привязки к жёстким паттернам, которые характерны для классического парсинга.
- Возможность сбора всех данных за один заход. Вы можете поставить ИИ сразу несколько задач и попросить извлечь разные типы данных, у каждого потока информации может быть свой формат и разметка. При этом результат нейросеть может вернуть одним сообщением (то есть за одну итерацию).
- Возможность работы с семантикой данных. ИИ может вернуть не просто сами данные, а разложить их по категориям и добавить дополнительные важные признаки, например, тональность отзыва/сообщения или краткий пересказ содержимого, ключевые слова/теги и прочее.
- Простая интеграция и готовые библиотеки. Многие модели с ИИ работают по API, они не зависят от платформы или языка программирования. Более того, официальные команды разработчиков часто предлагают готовые реализации библиотек для простой интеграции на популярных языках программирования: Python, Java, Golang и пр.
Минусы и ограничения ИИ веб-парсинга:
- Это дорого. Вам либо нужно обслуживать своё производительное оборудование с локальной нейросетью (обычно требуется дорогостоящий видеоускоритель или мощный процессор), либо оплачивать обработку запросов в привязке к токенам (они в свою очередь зависят от языка, типа контента и сложности задачи). В любом случае, каждый запрос к ИИ получается не бесплатным. И если речь о массовом парсинге, то бюджет может стремиться к бесконечности.
- ИИ может галлюцинировать. Дело в том, что нейросеть должна всегда вернуть вам данные, правильные или не совсем, это для неё не так важно. Соответственно, в истинности результатов нет 100% уверенности. ИИ вполне может «придумать» правдоподобный набор данных, который испортит всё ваше онлайн-исследование.
- Это сложно. Особенно, если речь заходит о создании векторных хранилищ и синтаксическом анализе данных с использованием таких библиотек, как LangChain и LangGraph. Вообще они предназначены для упрощения разработки, но одно только изучение синтаксиса и архитектуры может занять массу времени. Ведь речь не о новичках, а о суровой разработке для корпоративного сектора.
Итого: нейросети и ИИ вполне могут помочь с парсингом, особенно, если вы зашли в тупик с написанием парсера под постоянно меняющуюся верстку. Но пока нет варианта получить готовое решение для парсинга с ИИ. Нейросети не умеют самостоятельно работать с сайтами (напрямую), им обязательно нужно перенаправлять актуальные данные. Соответственно, их ещё нужно получить. И уж точно ИИ не будет вместо вас обходить систему защиты сайтов, например, решать капчу — это чистый хайп.
Защита от ботов становится умнее
Раньше верхом совершенства была проверка на поддержку JavaScript — если её нет, то и сайт просматривает не человек. Но времена изменились. Сайты научились не только проверять User-Agent, но и анализировать комплексные цифровые отпечатки: местоположение, тип IP-адреса, список поддерживаемых шрифтов, разрешение экрана, модель процессора, графического ускорителя и прочее. Некоторые сервисы даже используют ИИ для оценки естественности поведения пользователя.
От Captcha v2 до Captcha v4 и далее
Эволюцию защиты легко отследить на примере изменения алгоритмов капчи:
- Captcha v2 (первый релиз в 2014 году) — нужно выбрать картинки с автобусами/светофорами и т.п. Сейчас при желании можно успешно натренировать нейросети для решения таких головоломок.
- Captcha v3 (первый релиз в 2018 году) — отказ от картинок и оценка риска на основе поведения пользователя. Чем естественнее клики и прокрутка, тем выше шанс пройти проверку.
- Captcha v4 (примерно с 2021—2023 года) — более сложные сценарии, включая скрытые проверки, специальные динамические элементы на странице, вычисление задержек между действиями и т.п.
Новые тренды всё больше склоняются к «невидимой капче». Пользователя и его поведение оценивают в фоне, без каких-либо головоломок.
Обнаружение по цифровым отпечаткам, поведенческие ловушки и анализ времени
Цифровые отпечатки могут включать в себя сотни разных параметров. Поэтому, даже если парсер на базе безголового браузера поменяет IP-адрес или значение User-Agent, то сайт всё равно его узнает по остальным техническим признакам. В их числе куки, характерные паттерны поведения (прокрутка страниц и перемещение курсора, задержки между кликами), взаимодействие с элементами сайта.
Прокси-технологии в эпоху ИИ-антиботов
Если раньше вполне достаточно было поменять IP-адрес на любой другой, чтобы системы защиты целевого сайта вас «забыла», то сейчас, когда анализируются цифровые отпечатки и параметры самого IP-адреса, этого уже недостаточно.
На первое место выходит уже не столько возможность ротации IP, сколько качество адреса: его привязка к сетям домашних пользователей (резидентные прокси) или операторов мобильной связи (мобильные прокси). Например, серверные адреса легко вычленяются и всегда под особым подозрением (в группе риска). Их можно блокировать без тяжёлых последствий для основной целевой аудитории.
Чем «чище» пул адресов и чем естественнее они выглядят для целевой аудитории, тем ниже вероятность блокировки.
Для стабильного и масштабного парсинга важно использовать проверенного прокси-провайдера с широким пулом чистых IP-адресов, поддержкой ротации и удобной интеграцией с антидетект-браузерами или headless-решениями. Один из таких вариантов — Froxy: более 10 миллионов мобильных и резидентных IP с гибкой ротацией и верифицированными адресами, которые помогают эмулировать поведение реального пользователя.
Будущее: многоуровневый парсинг и гибридные подходы
Веб-скрапинг перестаёт быть просто скриптами, которые тянут HTML с сайтов. Всё больше и больше прокси-сервисов задумываются о предоставлении комплексной инфраструктуры в формате «headless-браузер + прокси для парсинга». С использованием таких сервисов проще и быстрее выстраивать многоуровневые системы для регулярного сбора больших объёмов информации. На каждом уровне есть свой инструмент или технология, которая эффективно решает свой пул задач:
- Быстрые данные — уровень предполагает работу с целевым сайтом по официальным программным интерфейсам (API) и получение структурированной информации в рамках официальных лимитов (без обхода блокировок).
- Стандартный низкоуровневый парсинг — извлечение данных из HTML, если у сайта есть классическая HTML-версия.
- Высокоуровневый парсинг — с использованием безголовых браузеров (для сайтов и страниц с большим объёмом динамического JavaScript-кода).
- Интеллектуальный парсинг — уровень для извлечения сложных данных, когда нужно распознать нечитаемый код и структуры с использованием ИИ.
- Адаптивные агенты — набор алгоритмов и модулей для принятия решения о том, нужно ли имитировать поведение пользователя и какой слой парсинга/пайплайн стоит выбрать.
- Постобработка — итоговый уровень, на котором все данные нормализуются и собираются в единое целое для быстрого поиска и анализа.
Сочетание ИИ-агентов + API для парсинга + прокси
Вместо предложенной многоуровневой модели могут использоваться «гибриды», когда за часть задач отвечает ИИ (чтобы парсер донастраивался по мере необходимости — нейросеть может самостоятельно формировать правила выборки по DOM-структуре), или готовые веб-сервисы (с API для парсинга, без прямого обращения к целевому ресурсу).
Прокси всё чаще реализуются в виде готового слоя для подключения. Они ведут статистику потребления, следят за ротацией по заданным критериям и правилам, самостоятельно очищают пул от проблемных адресов и т.п.
Очень хорошо, если прокси работают в связке с готовым парсером, тогда клиенту можно не переживать о балансировке нагрузки, о ротации и о других проблемах. Он просто формирует запрос и получает готовые структурированные данные, которые будут включаться в последующие цепочки анализа.
Заключение
Веб-парсинг всё больше и больше напоминает микросервисную архитектуру веб-приложений, где каждый модуль (ИИ-агент, прокси-провайдер и т.п.) решает свою узкую задачу. При необходимости количество модулей можно оперативно нарастить или сократить, в зависимости от задач парсинга и его объёмов (по аналогии с оркестрацией).
Уже существуют готовые облачные реализации парсинга по API, и тенденция всё больше и больше усиливается. Не исключено, что в будущем клиенты будут покупать не прокси и парсер по отдельности, а готовые гибридные конвейеры обработки данных.