Кейсы - Парсинг открытых данных

Кейсы наших клиентов

Кейс №1

Клиент обратился за парсингом сайта Asos.com всего ассортимента товаров на регулярной основе. Выгрузка нужна в формате XML.

В итоге был реализован парсер, который ежедневно обогащал базу данных товаров.

Нажмите, чтобы увеличить
Нажмите, чтобы увеличить

Кейс №2

Клиент обратился за парсингом сайтов компаний: Золотое Яблоко, Wildberries, Lamoda.

Запрос состоял в том, чтобы наша компания получала от клиента ссылки с периодичностью раз в 3 дня, так как ассортимент постоянно менялся.

Автоматизировали этот процесс таким образом, что клиент самостоятельно отправлял на наше облако ссылки, парсер подхватывал файл с ссылками и проходил по ним каждый день.

Кейс №3

Клиент обратился за парсингом сайтов компаний: Tefal, Krups, Moulinex, Rowenta + Technopark — сайт с очень хорошей защитой qrator.

Также клиенту нужно было с карточек товаров, кроме обычных полей, собирать наличие RICH контента (RICH контент – обогащение описания товаров доп. контентом по типу видео, картинок, анимаций и т.д.)

Так же отдельным парсером реализовали:

  • cat_position (позиция в категорийной выдачи)
  • top10_keywords (список кейвордов, где продукт ранжируется в топ-10 позициях)
  • pg_keywords (список кейвордов, где продукт ранжируется на 1 странице)
Нажмите, чтобы увеличить
Нажмите, чтобы увеличить

Кейс №4

Клиент обратился с запросом спарсить все аптеки России с сайта Аптека.ру.

Сложность заключалась в том, что информация отсутствовала в структурированном виде, но мы нашли способ, как через встроенный модуль Яндекс.Карт, который находится на сайте, вытащить все аптеки с названиями, адресами, телефонами и режимом работы.

Кейс №5

Клиент обратился с запросом на парсинг официального интернет магазина SonyPlayStation, так как в данный момент планирует открытие своего интернет магазина.

Нужно было реализовать ежедневный сбор цен с разделением на платформы PS4 и PS5.

Нажмите, чтобы увеличить
Нажмите, чтобы увеличить

Кейс №6

Клиент обратился с запросом на парсинг по прямым ссылкам на сайты:

Выгрузка нужна была в JSON формате, так же нужно было учитывать соответствие их внутреннего артикула, с артикулом самих ресурсов.