Вход Регистрация

Парсинг

Что делать, если ваш IP заблокирован при скрапинге?

Когда у вас есть четкий план действий, можно не бояться блокировки IP-адреса во время скрапинга. В статье вы найдете пошаговое руководство!

Команда Froxy 15 авг 2024 6 мин
Что делать, если ваш IP заблокирован при скрапинге?

Бизнес часто прибегает к парсингу конкурентов, как говорится: «все этим занимаются, но не все хотят в этом признаваться». Парсинг может быть полезен для полноценных маркетинговых исследований, для поиска ошибок на своих сайтах, для сбора данных из поисковых систем, а также для многих других задач.

Веб-скрейпинг не всегда проходит гладко. Крупные интернет-площадки, хотя и некоторые небольшие тоже, могут защищаться от накруток, ботов и автоматического трафика. Так они экономят на хостинге и освобождают ресурсы для обслуживания реальных (основных) пользователей.

Этот материал о том, что делать в ситуациях, когда ваш парсер был обнаружен и заблокирован по IP-адресу. Мы поделимся советами и хаками по обходу блокировок IP-адресов.

Что значит бан IP-адреса

Во многих CMS-системах (движков для сайтов), а также в софте для web-сервера (на уровне файрволла и другого ПО для очистки трафика) могут применяться собственные инструменты защиты от нежелательных посетителей. В первую очередь они рассчитаны на спамеров. Но могут быть и другие причины блокировок. К слову, парсинг и автоматически генерируемый трафик относятся к паразитным нагрузкам.

Самый простой способ защиты – завести некий чёрный список, в который можно заносить IP-адреса клиентов, которых вы не хотите видеть на своём сервере/сайте.

Когда клиент подключается к серверу, его IP адрес проверяется на наличие в этом чёрном списке. И если он там есть, то в доступе к серверу клиенту полностью будет отказано. Обычно сервер выдаёт ошибку 403 (доступ запрещён).

Всё это как раз и значит, что ваш IP забанили.

Иногда блокировка IP-адреса работает немного по-другому, только на уровне движка сайта. Тогда, например, вы можете просматривать общие страницы, но не можете авторизоваться в личном кабинете, написать сообщение или получить доступ к закрытой части сайта. Это так называемый «бан от админа».

Основная задумка системы защиты на базе чёрных списков заключается в том, что обычный пользователь не сможет оперативно сменить свой IP. Максимум, провайдер интернета назначит новый динамический IP, при переподключении, но и это не может продолжаться бесконечно. Современные архитектуры сетей локальных провайдеров таковы, что за одним IPv4-адресом могут работать сотни пользователей и IP им при переподключении никто не меняет.

С тем, что такое бан по IP мы разобрались, осталось выяснить как избавиться или обойти блокировку.

Советы, как избежать бана IP-адресов

Советы, как избежать бана IP-адресов

Все устройства, когда подключаются к Интернету, обязательно получают уникальный идентификатор – это IP-адрес. О том, что это такое и как он назначается, мы рассказывали в статье про динамические IP-адреса и про то, как скрыть свой IP-адрес. Если коротко, то IP-адреса всегда закрепляются за компаниями: локальными или региональными регистраторами. «Потерять» IP невозможно, они все на учёте. Исключение составляют специальные локальные IP-адреса, предназначенные для построения внутренних сетей, но с их помощью нельзя подключиться к глобальной сети.

Так как избежать блокировки IP-адреса при парсинге? Делимся советами.

Совет 1. Читайте правила сайта и соблюдайте их

Крупные ресурсы могут оговаривать нагрузку на сервер в правилах использования. Это большая редкость, но практика такая имеется. Основная сложность заключается в том, что пользователь не может посчитать нагрузку, которую он создаёт на сервер, соответственно, ему невозможно понять вписывается он в лимиты или нет.

Обычно оговариваются «нормальная» работа пользователя. И всё, что не попадает под это описание, может блокироваться.

Параллельно с общими и юридическими документами, оговаривающими целевое использование интернет-ресурса, а также могут применяться чисто технические документы. Например, это могут быть xml-карты (здесь собираются ссылки на страницы, подлежащие индексированию, то есть обходу поисковыми роботами) или файл robots.txt (тут указываются правила обхода страниц и запреты). Обязательно нужно изучить директивы из robots.txt и соблюдать их. Не стоит пытаться парсить разделы, которые явно запрещены для обхода роботами с помощью специальных директив.

Попытка нарушения легко может привести к бану.

Совет 2. Используйте доступ к API, если он есть

Самые крупные площадки знают, что бизнес-аудитории часто требуется доступ к определённым данным. И чтобы снизить нагрузку на основную версию сайта (ту, что открывают обычные пользователи), владельцы ресурса организуют программный интерфейс – API.

С помощью API можно существенно автоматизировать процесс сбора данных, так как информация предоставляется сервисом в готовом виде (с разметкой). Вы можете запрашивать что-то конкретное: отдельные страницы, списки страниц, срезы, статистику и прочее. Все возможности программных интерфейсов описываются в документации и зависят от конкретного ресурса (техническую составляющую определяют владельцы сайта).

Доступ к API-интерфейсу осуществляется на основе ключа, одновременно выступающим идентификатором и элементом защиты.

Но у API могут быть свои лимиты и ограничения. Обязательно изучите их и соблюдайте.

Что хотелось бы выделить особенно: даже если вы «случайно» превысите лимиты запросов по IP, то скорее всего никакого бана не получите. Максимум – система будет выдавать ошибку в ответ на ваши запросы. Когда лимиты обнулятся (восстановятся), доступ к данным снова восстановится.

Обойти ограничения API будет сложнее, так как система не привязывается к вашим IP-адресам, она ориентируется на ваш API-ключ.

Совет 3. Выставляйте разные промежутки времени между запросами

Самый первый параметр, по которому вычленяются боты и парсеры – это одинаковые промежутки времени между запросами. И дело даже не в том, какое значение задаётся, одна секунда или пять минут. Вычленяется именно сама закономерность.

Если ваш парсер не умеет рандомизировать время между запросами, это нужно обязательно исправить (или нужно полностью сменить парсер).

Другие советы для того, чтобы парсить сайты профессионально и не попадать под блокировки.

Совет 4. Минимизируйте нагрузку на целевой сайт

Совет 4. Минимизируйте нагрузку на целевой сайт

Не стоит отправлять запросы слишком часто. Чем больше запросов поступает с одного IP, тем выше внимание к нему со стороны систем защиты. Реальные пользователи физически не смогут открывать по 100 страниц за секунду.

Если хотите ускорить процесс сбора – распараллеливайте экземпляры парсеров. Не нужно сокращать время между запросами с одного IP.

Тут важно помнить, что у каждого экземпляра парсера должен быть свой IP-адрес. Только в этом случае сбор данных может осуществляться параллельно.

Параллельные потоки запросов с одного IP – это большая проблема. Скорее всего ваш парсер быстро заблокируют.

Как отправлять запросы каждый раз с нового IP.

Совет 5. Выявляйте и обходите ловушки для ботов

Как можно гарантированно выявить автоматический трафик и ботов? Легко: достаточно вставить на уровне HTML-кода специальную ссылку или форму, которую скрывают для отображения с помощью CSS-стилей.

Итог такой: бот или парсер при обходе видит эту ссылку, так как она есть в коде (у бота нет реального зрения, он читает код, как обычные данные из потока), и переходит по ней.

Пользователь перейти по такой ссылке не может, так как браузер не показывает её на странице.

Соответственно, все IP-адреса клиентов, перешедших по ссылкам-ловушкам, тут же попадают под бан (заносятся в чёрный список и блокируются).

Чтобы избегать таких ловушек, можно пользоваться технологиями компьютерного зрения или научить парсеры игнорировать элементы и ссылки, скрытые для отображения.

Совет 6. Старайтесь, чтобы ваш парсер был похож на реального пользователя (используйте headless-браузеры)

Самые продвинутые системы защиты анализируют большое количество параметров пользователя: перемещение курсора, версия браузера, user-агент, куки, поддержка разных web-технологий (JavaScript, HTML5 canvas, WebRTC и пр.), список системных шрифтов, набор установленных плагинов в браузере и прочее. Это так называемые цифровые отпечатки.

Более того, многие страницы сейчас загружаются с использованием Ajax и JavaScript-фреймворков (это фактически полноценные web-приложения). Прямой парсинг HTML может не сработать, так как итоговый контент формируется непосредственно в браузере, а не на сервере (в норме сервер отдаёт браузеру готовую результирующую HTML-страницу).

Спасти ситуацию могут специальные headless-браузеры. Они позволяют загружать динамические страницы в полном объёме и эмулировать поведение пользователей: перемещать курсор, выжидать время, печатать текст в формах и т.п.

Но если вам нужно параллельно работать с большим числом аккаунтов, понадобятся усовершенствованные версии браузеров – антидетект-браузеры (для понимания принципов работы – обзор браузера Dolphin{Anty}).

И headless-, и антидетект-браузеры умеют взаимодействовать с парсерами по API или через специальные библиотеки.

Что делать, если ваш IP-адрес заблокировали (забанили)

Что делать, если ваш IP-адрес заблокировали (забанили)

Предположим, что вы не следовали нашим советам по избеганию блокировок, и всё-таки получили бан. Ну, или системы защиты сайта слишком сложные, и обойти их просто нереально стандартными методами. Рассказываем, как обойти бан IP-адреса.

Совет 1. Напишите в саппорт, чтобы с вас сняли блокировку

<…слышится смех и кашель в кулак…>

Редко случается так, что ваш проводной оператор связи докупает новый пул IP-адресов, и может сложиться ситуация, когда отдельные IP-адреса из этого пула уже числятся в чёрном списке конкретного интернет-ресурса. В этом случае можно обратиться к владельцам сайта, обрисовать ситуацию и попросить разблокировать IP (снять бан). Администрация сайта вполне может пойти вам навстречу. Проверить факт смены владельца IP будет несложно.

Единственная ситуация – вам сложно будет обратиться в саппорт, так как IP заблокирован. Для этого можно использовать мобильную связь или способы обхода, изложенные ниже.

Если вы занимались парсингом и получили бан, то просить о снятии блокировки бессмысленно, вам с большой степенью вероятности откажут, так как это скорее всего будет противоречить правилам нормального использования ресурса.

Совет 2. Перезагрузите роутер

Совет звучит как универсальный ответ специалиста технической поддержки вашего оператора связи при любых проблемах с подключением.

Но что есть, то есть. Сейчас почти у всех проводных провайдеров используется динамическая ротация IP-адресов между активными пользователями. И если у него белые динамически IP-адреса (а не серые, выдаваемые внутренним маршрутизаторам), то при переподключении с большой вероятностью вам выдадут новый IP.

Совет никак не поможет в сетях с динамическими серыми IP-адресами. Дело в том, что IP-адрес в этом случае присваивается сетевому оборудованию провайдера, которое «гоняет» трафик по локальной сети и внутренним пользователям реальный IP не выдаёт. Соответственно, вы можете получить новый локальный (технический IP), но не сможете поменять IP, который используется для выхода в глобальную сеть. А значит, бан останется в силе.

Совет 3. Попробуйте подключиться через VPN

Совет 3. Попробуйте подключиться через VPN

VPN – это эффективное решение для обхода региональных блокировок и для скрытия своих сессий от посторонних глаз. Все данные между вами и VPN-сервером надёжно шифруются, получается своего рода виртуальный туннель.

В сеть вы выходите из-под IP-адреса VPN-сервера. Он работает как аналог прокси, отправляя ваши запросы от своего имени.

Но есть ряд серьёзных проблем:

  • Сеть VPN-серверов обычно небольшая (по 1-2 адреса на локацию). Соответственно, при серьёзных бизнес-задачах вы их очень быстро исчерпаете.
  • Управлять IP-адресами выходных узлов не получится (вы не можете их ротировать по команде).
  • Сами IP-адреса обычно принадлежат хостингам или дата-центрам. Соответственно, их легко вычленить в трафике и ещё проще заблокировать (подробнее в материале про серверные/датацентровые прокси).

В общем: VPN – это не прокси, они не подходят для задач парсинга.

Подробное сравнение VPN с прокси-серверами.

Совет 4. Используйте прокси

Совет 4. Используйте прокси

Самый дельный и практичный совет. Прокси станут идеальным решением для парсинга большого количества страниц, для распараллеливания потоков и для задач обхода банов конкретных IP.

Прокси тоже бывают разными. Мы настоятельно рекомендуем использовать для парсинга:

  • Мобильные прокси (про их плюсы и минусы). Самые-самые. Имеют низкий риск блокировок, легко ротируются, нормальные провайдеры таких прокси обеспечивают точный таргетинг, идеально подходят для парсинга соцсетей и крупных интернет-площадок, легко интегрируются с профессиональным софтом и парсерами.
  • Резидентные прокси (про их плюсы и минусы). Тоже имеют высокую степень доверия, легко ротируются, подбираются в нужной локации и т.д. Но немного уступают мобильным прокси по работе с крупными интернет-ресурсами (резидентные прокси чаще блокируются, чем мобильные).

Прокси выступают в роли посредника. Соответственно, бан по IP с их помощью обходится очень просто. Вы меняете свой IP на IP-адрес прокси и бан для вас больше не действует. Если целевой сайт забанит IP-адрес вашего прокси, его легко можно сменить на новый: по API-команде или по времени. Можно вообще отправлять каждый новый запрос с нового адреса. Забанить вас в этом случае с помощью чёрных списков будет просто нереально.

Заключение и рекомендации

как избежать бана IP

Мы рассмотрели все основные причины бана по IP, рассказали как избежать блокировок, но самое главное – объяснили что делать в случае, если ваш IP попал под бан во время парсинга.

Лучшим решением для обхода банов по IP являются прокси-серверы. Только они подходят для массовых задач и обеспечивают оперативную ротацию IP-адресов. Все остальные методы подходят только для разовых и личных целей.

Найти качественные резидентные и мобильные прокси с ротацией можно у нас. Сервис Froxy может предложить более 10 млн. IP, точный таргетинг, API-интерфейс и адекватные цены. У нас в наличии готовые облачные инструменты парсинга. С ними можно не переживать о блокировках.

Получайте уведомления о новых функциях и обновлениях Froxy

Узнайте первыми о новых функциях Froxy, чтобы оставаться в курсе событий происходящих на рынке цифровых технологий и получать новости о новых функциях Froxy.

Статьи по Теме

Зачем нужны прокси для Discord

Прокси

Зачем нужны прокси для Discord

Сейчас речь пойдет о таком популярном решении, как Discord. Поговорим не о какой-то конкретной аудитории, и даже не о мессенджере как таковом....

Команда Froxy 18 ноя 2022 4 мин
Статические и динамические прокси: в чём разница?

Прокси

Статические и динамические прокси: в чём разница?

Интернет – это сеть сетей. Все её узлы, включая мобильные гаджеты, маршрутизаторы, серверы, персональные компьютеры и т.п., обязательно имеют...

Команда Froxy 21 сен 2023 4 мин