Браузеры практически обязательно хранят внутри себя огромный объём информации о своих пользователях. Например, это могут быть сохранённые пароли, кешированные данные сайтов (скрипты, картинки, видео и т.п.), история просмотров, закладки, куки и прочее.
Всё это нужно для определённых технических задач, но в первую очередь – для удобства самого пользователя: ему нужно реже авторизовываться в любимых сайтах и сервисах, страницы могут грузиться быстрее, пароли не нужно запоминать, под рукой всегда доступен список любимых или часто посещаемых сайтов.
Вместе с тем, эти же данные могут использоваться и для других целей, например, для идентификации пользователя, чтобы потом ему можно было предложить персонализированную рекламу, а также для отслеживания его действий в сети (какие сайты он посещает, что покупает или заказывает, какие у клиента интересы и прочее).
Браузерный профиль – это полноценный цифровой отпечаток. Многие крупные сайты используют цифровые отпечатки для отсева паразитного трафика.
Давайте разберёмся во всём этом более детально, а главное, выясним, как связаны между собой цифровые отпечатки и процесс парсинга, а также – можно ли обойти процесс проверки браузерных профилей.
Простой пример для наглядности – разрешение экрана, локаль и версия браузера. На основе разрешения экрана веб-сервер может выдать клиенту отдельную версию сайта (для десктопов или для мобильных), на основе локали активируется тот или иной перевод интерфейса, а версия браузера используется для более качественной отрисовки оформления (CSS-стилей).
Точно также используется IP-адрес клиента, на его основе можно подобрать ближайший сервер кеширования (если используется CDN), тогда даже очень крупный и сложный web-сервис будет отрабатывать и загружаться максимально быстро.
Сайт может получить доступ к версии операционной системы, к набору шрифтов и ко многим другим параметрам устройства, например, на мобильных гаджетах могут задействоваться аппаратные датчики и сенсоры.
Круто? Да, но только если всё это используется по прямому назначению – для повышения комфорта пользователя. Но это не всегда бывает так. Веб-сайты и специальные системы мониторинга могут использовать данные о пользователях и в других целях:
Некоторые сайты создаются злоумышленниками и могут перехватывать (похищать) элементы цифровых отпечатков, чтобы в дальнейшем перепродать их (существуют даже специальные маркеты или сервисы цифровых отпечатков). Плюс, отпечатки используют для определённых типов атак, например, с подменой cookies.
Цифровой отпечаток – это набор параметров пользователя, по которым его можно идентифицировать или отследить в сети. Чаще всего под цифровым отпечатком подразумевается браузерный профиль.
Профиль браузера – это набор параметров, которые браузер может передать удалённому серверу в процессе HTTP/HTTPS-подключения.
Например, к браузерному профилю могут относиться:
Отдельные сайты могут использовать сканирование браузерных отпечатков, включающее анализ естественных шумов, снимаемых с микрофона, а также проверять подвижность изображения на встроенной камере.
Раньше мы уже писали о том, какие существуют практики, снижающие риск блокировки при парсинге данных.
Например, в особо сложных ситуациях следует использовать безголовые (headless) браузеры или даже скрапинг экранов (с распознаванием скринов).
Но одно дело понимать, что такое цифровой отпечаток или браузерный профиль, а другое – использовать эти данные в реальных ситуациях.
Наиболее простые примеры сканирования цифровых отпечатков на сайтах:
Вывод таков: если вы хотите парсить сайты конкурентов или собирать данные с крупных площадок, таких как Amazon, eBay и т.п., то нужно позаботиться о цифровых отпечатках своего браузера (парсера).
Веб-парсинг – это не всегда зло. Чаще всего за автоматическими запросами стоят простые и вполне мирные задачи: поиск данных, мониторинг цен, анализ конкурентов, выбор ниши, проверка контрагентов и т.п.
Защита браузерных отпечатков и предварительное сканирование – это как борьба добра со злом. Одни хотят защитить свои личные данные (браузерные профили, цифровые отпечатки) или обойти другие ограничения сайтов/web-сервисов, а другие хотят знать о клиентах всё, чтобы лучше продавать или, наоборот, чтобы блокировать паразитную (по их мнению) нагрузку.
И единственно правильной позиции по этому вопросу нет и быть не может. Каждый может оказаться по разные стороны баррикады.
Итак, проблемы парсинга ясны: из-за проверки цифровых отпечатков (браузерных профилей), собирать данные в автоматическом режиме становится сложнее. Сайты могут проверить большое количество параметров клиента и при малейшем подозрении заблокировать его.
Какие способы обхода существуют:
Сайты, особенно, если за ними стоит работа крупных IT-команд, научились вычленять ботов и автоматически генерируемый трафик, чтобы блокировать его и снижать расходы на свой хостинг.
Для отсева реальных клиентов от нереальных чаще всего используются цифровые отпечатки (параметры браузерных профилей).
Но для каждого действия всегда найдётся противодействие. Программы-парсеры можно научить имитировать поведение пользователей и подделывать большинство параметров тех самых цифровых отпечатков. Для этого обычно используются headless или антидетект-браузеры в связке с прокси.
Прокси – крайне важный элемент, который берёт на себя задачу изменения местоположения и защиты реальных IP-адресов (на случай блокировок).
Мы, команда Froxy, предлагаем качественные мобильные и резидентные прокси с оплатой за пакеты трафика. Ротация IP возможна по требованию или по таймеру. Подбор новых адресов может осуществляться в той же локации (до уровня города) и даже у того-же оператора связи, что существенно снижает риски блокировки. Пул адресов включает более 8 млн. IP в 200+ странах.