Да, сейчас в ассортименте продуктов Амазон не только площадка для продаж, есть и своя облачная инфраструктура (фактически хостинг), и линии по сборке гаджетов (читалок, SMART-колонок и т.п.). Есть даже своё издательское агентство и киностудия. Но основной бизнес строится на обслуживании продаж. Для этого не нужно ничего производить, достаточно предоставить качественную и надёжную платформу. Примерно по такой же схеме в РФ работает маркетплейс Ozon.
Итак, зачем парсить сайт торговой площадки, да ещё и такой крупной, как Amazon? Причин может быть несколько:
- Сбор данных о клиентах в определённой нише или только у потенциальных/прямых конкурентов.
- Сбор данных об ассортименте – тоже в заданной нише или непосредственно у конкурентов.
- Анализ отзывов – для понимания активности аудитории и требований клиентов к качеству. А также анализ продукции имеющихся производителей (в том числе поиск лучших товаров по сочетанию цена/качество) и поставщиков.
- Общая аналитика – полнота предложения, уровни цен, активность спроса, общие тенденции, новинки и акции, и т.п.
Разные типы таких данных могут использоваться для прогнозирования спроса на свою продукцию, проектирования каталога, формирования требований к наполнению и т.п. Да, современный рынок электронной коммерции стал заметно сложнее. И чем эффективнее и правильнее подойти к своим маркетинговым кампаниям, тем больше прибыли и оборота можно получить.
Всё это так называемые Big Data. Хотя, парсинг Amazon может помочь и в становлении малого бизнеса. Например, чтобы быстро найти незанятую или пока ещё не прогретую нишу.
Для парсинга должны использоваться специальные программы – парсеры или скрейперы (скраперы). Подробнее о том, что такое парсинг.
Проблемы парсинга Amazon
Так как сайт Amazon обслуживает огромное количество клиентов, любая паразитная нагрузка – это потерянные на хостинг деньги. Да и сайт работает для людей, а не для ботов. Какая компания, работающая в сфере продаж, решит добровольно поделиться своими аналитическими данными с другими участниками рынка? Максимум, это будет что-то поверхностное, то, что сложно скрыть или что не несёт никаких важных сведений, которые можно применить на практике.
Обратите внимание, Amazon предлагает бесплатный доступ к Product Advertising API, но оно нужно для рекламирования и продвижения уже загруженных товаров. Иными словами, сервис рассчитан на создание партнёрских сетей и на маркетологов, которым нужно оперативно управлять большими каталогами товаров. Естественно, получить через это API «чужие» данные нельзя.
Более того, Amazon использует специальные системы защиты, которые обнаруживают автоматические запросы и блокируют их. Но это ещё не все сложности парсинга Amazon. Ниже расскажем всё в деталях.
Разная структура страниц
Многие парсеры анализируют структуру HTML-страницы, чтобы найти закономерности: схожие ID (идентификаторы) или классы, описания, HTML-теги и другие атрибуты. Основная задача – вычленить блоки контента, из которых нужно забрать (спарсить) данные.
Такими блоками могут быть: строка с названием продукта, блок с изображениями, поле с ценой и т.п.
Но сайт площадки не является статичным. Периодически меняется дизайн и вёрстка, соответственно теряется общая для всех структура блоков, могут меняться классы, идентификаторы и пр.
Структура страниц в разных категориях каталога также может кардинально отличаться. Всё это создаёт определённые сложности для тонкой настройки парсера.
Настройку под новую структуру нужно либо актуализировать вручную (если у парсера есть функционал для обработки исключений), либо нужно ждать, когда разработчики программы поправят её для вас, чтобы она работала с текущей актуальной версией сайта или с конкретным типом страниц.
Недостаток производительности
Наиболее популярный способ сэкономить на парсинге – запустить процесс сбора данных со своего ПК/сервера (в зависимости от типа парсера). Но в этом случае вы упираетесь в естественное ограничение коннектов с целевым сайтом:
- Если одновременно запрашивать соединение с большим количеством страниц, алгоритм защиты Amazon сработает. Обнаружить паразитную нагрузку и автоматическую отправку массовых запросов будет несложно. Ведь вряд ли простой покупатель сможет физически открыть более 10 страниц одновременно и в течение доли секунды перейти к новой порции просмотров.
- Если вычленить для себя безопасный интервал и тщательно его соблюдать, то время на парсинг увеличится в геометрической прогрессии. Пример. Если запрос одной страницы делать раз в три секунды, то на сбор данных с тысячи страниц уйдёт 3000 секунд (или 50 минут). Тогда 10 тыс. страниц придется парсить уже более 8 часов. И т.д. Если нужно много данных, то на их сбор могут уйти дни и даже недели.
Чтобы парсить данные с помощью параллельных потоков, нужен специальный софт. Все парсеры Amazon, представленные в наших списках ниже, умеют работать с отправкой и обработкой большого количества параллельных запросов.
Блокировки
Конечно, механизмы системы защиты Amazon постоянно меняются и пересматриваются, чтобы было проще отделить ботов, несущих паразитную нагрузку, от настоящих пользователей, приносящих прибыль.
Но самым простым и эффективным методом защиты была и по-прежнему остаётся блокировка по IP-адресу. Тут есть множество своих нюансов, таких как время жизни бана, тип IP-адреса (кому он принадлежит, например, оператору локального интернета, оператору мобильного интернета или владельцу хостинга), наличие IP в специальных спам-базах и т.п.
В любом случае, чтобы сработала более сложная блокировка на основе анализа поведенческих факторов, нужно, чтобы парсер произвёл хотя бы несколько запросов с одного и того же IP-адреса.
Вот тут и спасают прокси-серверы.
Они решают сразу несколько задач:
- Могут распараллелить одновременные запросы, чтобы ускорить процедуру сбора данных.
- Снижают риск блокировки программы-парсера, а точнее, хоста (компьютера или сервера), на котором работает парсер.
- И позволяют собирать данные в заданных регионах (странах и локальных рынках), ведь цены и условия продаж у них могут отличаться.
Но тут тоже есть нюансы:
- Классические серверные прокси очень легко и быстро отслеживаются. Они почти сразу попадают в стоп-лист (в список блокировок) из-за низкого уровня доверия. Плюс, точность геотаргетинга у них низкая – максимум до уровня страны. А ещё многие серверные IP часто уже находятся в спам-списках. Поэтому эффективность парсинга с ними крайне низкая.
- Резидентные прокси показывают неплохую скорость и высокое качество покрытия. Но и они могут быстро пополнять стоп-листы. Правда, обычно с ограниченным временем блокировки, чтобы за время отсутствия коннекта «охладить» интерес бота. Как работают резидентных прокси, их особенности и преимущества.
- Мобильные прокси – идеальный вариант для web-скрейпинга Amazon. Они обеспечивают масштабное покрытие, точный таргетинг и крайне редко блокируются из-за риска ограничения доступа к ресурсу большому количеству реальных клиентов. Единственный их недостаток – высокая стоимость. Как работают мобильные прокси, их особенности и преимущества.
- От выбора провайдера услуги прокси тоже многое зависит – удобство подключения, выбор IP и точность геолокации, максимальное количество одновременных подключений, ограничения на типы передаваемых данных и на скорость коннекта, наличие IP в спам-базах, анонимность и т.п. Для парсинга Amazon выбирайте Froxy, и не ошибётесь.
Инструменты для парсинга Amazon
Наиболее распространёнными типами парсеров являются stand-alone программы. Это софт, который работает на вашем ПК. Но могут применяться и другие типы инструментов: облачные парсеры (готовые web-сервисы, управление производится через личный кабинет или через API), а также расширения к браузерам.
Рассмотрим самые популярные утилиты для парсинга Amazon.
Octoparse
Программный продукт является удачным симбиозом оффлайн-софта и облачной реализации. Установочные пакеты есть для операционных систем Windows и MacOS. Базовая версия распространяется полностью бесплатно, но для работы с Amazon вам понадобится SaaS-функционал, так как для многопоточного скрейпинга обязательно требуется ротация IP-адресов.
Программа использует технологии машинного обучения и имеет более сотни различных шаблонов для извлечения данных с разных сайтов: eBay, Yelp, Google Maps и т.д.
Для настройки парсинга может использоваться режим новичка или режим мастера. Octoparse умеет извлекать со страниц текс, ссылки, URL изображений, контактные данные, данные из результатов поиска и т.п. При этом поддерживаются сайты, созданные по Ajax-технологии, с бесконечной прокруткой, с выпадающими списками, сложными таблицами, с контентом, загружаемым с помощью JavaScript, и т.д.
Поддерживается авторизация по логину/паролю. Есть встроенный инструмент для создания алгоритма и условий парсинга – Workflow Designer. Данные можно хранить в облаке (есть в том числе API интерфейс для обращения к ним) или сохранять в разных форматах (TXT, CSV, HTML).
Бесплатная версия программы имеет ряд технических ограничений: параллельно можно выполнять не более 2 задач, а в очередь можно ставить не более 10, нет функционала инкрементного извлечения, API и всех облачных функций.
Платные облачные редакции снимают ограничения по потокам и существенно увеличивают лимиты по постановке в очередь, плюс, можно рассчитывать на профессиональную техническую поддержку.
Цены на подписки – от 75 $/год.
ScrapeStorm
Инструмент визуального веб-скрейпинга на базе искусственного интеллекта, создан бывшей командой разработчиков поисковых роботов Google. Работает на любых десктопных ОС: Windows, Linux, MacOS.
В специальном интеллектуальном режиме программа самостоятельно может обнаруживать на страницах различные данные: списки, таблицы, ссылки, формы, номера телефонов, цены и т.п. Поэтому подходит для различных задач, в том числе для поиска и сбора контактных данных, парсинга цен, работы с комментариями и отзывами. Но самая интересная фишка – моделирование действий пользователя. Вы можете написать сложные скрипты, и программа будет их выполнять так, как это делал бы реальный пользователь – с перемещением курсора мышки, ожиданием, прокруткой страницы и т.д.
Поддерживается большой список форматов экспорта: таблицы, текст, HTML, готовые базы данных (тоже в разных форматах, не только MySQL, но и MongoDB, PostgreSQL и даже готовые файлы для загрузки в WordPress).
Софт может работать на локальном ПК или сервере, а также в специальном облаке. При этом локальные и облачные задачи можно запускать параллельно, данные будут оперативно синхронизироваться между собой.
Бесплатная версия ScrapeStorm ограничивается по количеству одновременных заданий на парсинг (не более 10) и по количеству активных запусков на локальных ПК (не более 1). Есть лимиты по экспорту – до 100 строк в день.
Платные подписки – от 39,99 $/месяц. Естественно, подписки повышают все обозначенные лимиты. Есть тарифы, на которых количество локальных запусков программы никак не ограничивается.
Специальные бизнес-тарифы, на которых открывается возможность скачивания любых типов файлов, включая видео и аудио, обойдутся уже от 159,99 $/месяц.
ParseHub
Ещё один web-скрейпер, имеющий бесплатную версию в сочетании с готовой облачной инфраструктурой. Поддерживает ОС семейства Windows, macOS и Linux. Интерфейс программы очень напоминает классический web-браузер. Поддерживается парсинг со статических и динамических сайтов (включая JavaScript, Ajax, бесконечную прокрутку и пр.), поиск по формам, по всплывающим окнам и другие полезные функции.
Имеется механизм машинного обучения, который способен облегчить процесс сбора данных не только новичкам, но и профи. Извлечённые данные можно экспортировать по API, в Excel/CSV и JSON-формате, а также выгружать в Google Таблицы и в Tableau.
Скрейпинг можно запускать по расписанию, чтобы всегда иметь актуальный срез данных для анализа и сравнения.
К минусам можно отнести отсутствие поддержки парсинга содержимого PDF-файлов и плохую адаптацию к MacOS (текущая версия, например, пока не поддерживает macOS Ventura).
Бесплатная версия подразумевает работу только с публичными проектами (ваши данные может скачать кто угодно) и имеет ряд ограничений: скорость парсинга 200 страниц за 40 минут, за один запуск можно спарсить не более 200 страниц, данные хранятся в специальном облаке не более 14 дней.
Платные подписки – от 155 $/месяц. Повышаются лимиты по скорости и по количеству страниц на цикл работы, данные будут храниться в приватных проектах. Появляется возможность выгрузки изображений в указанные облачные хранилища. Данные могут храниться до 30 дней.
Браузерные расширения
С одной стороны, такие расширения очень удобны, так как не требуют установки отдельной программы, ведь всё остаётся внутри браузера. Плюс, система защиты конечных сайтов почти никогда не срабатывает, ведь страницы обходит не робот, а вполне реальный человек – то есть пользователь браузера.
С другой стороны – в браузерных расширениях часто отсутствует возможность работы с большим количеством параллельных потоков. Хотя могут быть и другие технические нюансы.
Data Miner (он же Data Scraper)
Одно из самых популярных браузерных расширений для Google Chrome. Потенциально совместимо с Microsoft Edge и другими браузерами на базе Chromium. В несколько кликов можно запустить одни из нескольких десятков тысяч готовых правил сканирования, а можно создать свой вариант скрайпера.
Расширение умеет извлекать данные с одной или сразу с нескольких страниц, из поисковой выдачи и т.п., умеет вводить данные в формы, работать по скриптам, эффективно находит контактную информацию, товары и цены. Полученные данные можно экспортировать в табличном виде: CSV, Excel.
Расширение распространяется по фримиум-модели. Базовые возможности предоставляются бесплатно. Плюс, можно парсить до 500 страниц в месяц.
Профессиональные планы – от 19,99 $/месяц. Отличаются уровнем технической поддержки и лимитами по количеству страниц.
Webscraper.io
Простое и понятное для новичков расширение. Работает по принципу «наведи и щёлкни». Распространяется абсолютно бесплатно, без каких-либо лимитов на количество страниц для парсинга.
Поддерживает все современные web-технологии, включая JavaScript и Ajax. Параллельно расширению для Chrome предоставляется аналогичное дополнение для браузеров на базе Firefox.
Если не подойдет формат браузерного расширения, можно перейти на облачную реализацию. Тут уже будет массовый парсинг по расписанию, доступ к API, ротация прокси и прочие технические фишки.
Облачный формат работы предполагает доступ к инфраструктуре по подписке – от 40 $/месяц.
ScraperParsers
Разработкой этого расширения занимается компания, предоставляющая всегда свежие и актуальные данные для рынка венчурных инвестиций (о фондах, стартапах и сделках). Ежедневно анализируется более 1 млн сайтов: блоги, новости и другие профильные ресурсы. Конечно, без утилиты для парсинга собрать такой объём данных просто невозможно. Поэтому расширение ScraperParsers смело можно назвать удачным побочным продуктом.
Схема работы нетипичная для рынка расширений. Плагин используется как своего рода терминал для настройки заданий. Пользователь «натравливает» программу на нужные ему данные, а все остальные страницы парсятся по образцу. В дальнейшем остаётся только скачать их из фирменного облака.
Учитывая облачную реализацию, стартовая подписка, которая предполагает бесплатный доступ, это не более чем freemium-модель. Ограничения будут следующими: не более 10 параллельных запросов к сайту, только один сайт в активной работе, не более 1000 страниц за один запуск, ограниченный список прокси-серверов.
Платные тарифы, повышающие лимиты и улучшающие условия техподдержки, обойдутся уже от 19,99 $/месяц.
Amazon Data Scraper
Специализированное расширение от компании DataSunday. К слову, та же команда разрабатывает и сопровождает браузерные расширения для разных ecommerce-платформ, например, для eBay, JD, AliExpress и т.п.
Конкретно это расширение умеет собирать с Amazon любые продукты по брендам и по ключевым словам. Вытягиваются данные по транзакциям и о поведении клиентов (отзывы). Естественно, собираются цены, названия, описания и т.п. То есть, парсятся не только параметры ASIN, извлекаются почти все значимые данные. Формат экспорта – только таблицы Excel.
Бесплатный доступ предоставляется на один день. Далее нужен переход на платную подписку, 18,99 $/месяц. Но это за доступ ко всем утилитам и инструментам для парсинга сразу.
Никаких облачных реализаций нет, все данные собираются только вашим браузером.
Заключение и рекомендации
Инструменты для парсинга бывают разными. Какие-то работают в качестве дополнений к браузеру, какие-то – в виде самостоятельного софта для ПК или для сервера, а какие-то – в виде облачных сервисов с готовой инфраструктурой под ключ.
Но в каждом отдельном случае парсинг Amazon будет иметь свои особенности и нюансы. Где-то вероятность блокировок будет минимальная, так как работает непосредственно пользователь, но и большой объём данных в этом случае быстро никак не получить. Поэтому, если вам нужно пропарсить большое количество страниц, нужно использовать ротируемые прокси, чтобы избежать рисков блокировок по IP или по поведенческим факторам.
Лучший сервис для аренды ротируемых резидентных и мобильных прокси (а именно такие прокси лучше всего подходят для парсинга Амазон) – это Froxy.
Вы получаете возможность тонкой настройки геопозиции, вплоть до города и провайдера связи, огромный пул адресов, более 8 млн IP, и удобный личный кабинет с выгрузкой списков прокси в заданном формате.