Обзор инструмента для веб-скрапинга Octoparse

Комментарии: 0

Octoparse — инструмент для автоматического парсинга веб-страниц и извлечения данных. Он используется для веб-скрапинга, сканирования сайтов для сбора большого количества информации, передачи ее в различные электронные таблицы, и базы данных для дальнейшей обработки. Octoparse полезен для аналитиков, директоров, трейдеров, маркетологов и пользователей занимающихся стратегическим планированием, конкурентным анализом и таргетингом в сфере e-commerce.

1.png

Особенности Octoparse

Приложений для сбора данных и автоматизации рутинных задач достаточно много, и у всех есть свои преимущества, недостатки и особенности. Главное отличие Octoparse для веб-скрапинга, по заявлению разработчиков, способность эффективно извлекать информацию с 98% ресурсов, в том числе интерактивных, сложных и динамических. Парсер полностью имитирует поведение человека при просмотре страниц и имеет следующие особенности:

  • Встроенный браузер, позволяющий входить в аккаунты, вводить запросы и выполнять поиск, переходить на страницы, и работать на бесконечно прокручивающихся страницах;
  • Выполняет обход CAPTCHA через встроенный функционал Octoparse;
  • Имеет функционал для извлечения текста, внутренних и внешних HTML-ссылок, атрибутов, и выбора значений для дальнейшего сбора данных;
  • Выполняет извлечение URL-адреса файлов и изображений;
  • Блокирует рекламу, в результате чего сокращается использование трафика и процесс парсинга ускоряется;
  • Поддерживает настройку прокси-серверов и их ротации для бесперебойной работы и обхода блокировок;
  • Предоставляет возможность запланированного сканирования необходимых сайтов, обновляющихся в реальном времени.

    2.png

Возможности парсера Octoparse

Рассмотрим технические преимущества Octoparse и какие задачи можно решить с его помощью.

  • Локальный запуск на компьютере и облачное развертывание с несколькими серверами одновременно, что ускоряет процесс веб-скрапинга до 20 раз.
  • Интеллектуальный режим работы «Smart Mode» помогает конвертировать веб-страницы в структурированную таблицу данных сразу после ввода URL.
  • Удобные шаблоны Octoparse для Facebook, Instagram, Youtube, Twitter, Google, и других ресурсов.
  • Инструментарий RegEx и XPath для более точного поиска веб-элементов.
  • Экспорт обработанных данных в CSV, Excel, JSON, HTML, TXT.
  • Приложение может обрабатывать авторизацию, формы поиска, разворачивать комментарии и списки, собирать данные из календарей и карт, работать с Ajax и Javascript.
  • Визуализация рабочего процесса через конструктор для понимания логики (переменные, циклы, и условные выражения), с возможностью изменения схемы при помощи интерфейса «Point-and-click».

    3.png

Программа не требует технических навыков или умений программирования, подходит для ознакомления с процессом парсинга. На сайте есть понятные уроки, как использовать Octoparse, показана работа популярных функций, и представлены реальные пользовательские сценарии для распространенных задач. В разделе часто задаваемых вопросов и туториалов по Octoparse рассмотрены неочевидные способы ускорить сбор данных, даны решения многих возникающих ошибок, представлены полезные советы как обойти ограничение запросов и другие материалы.

Извлечение адреса электронной почты

Можно использовать Octoparse для сбора данных e-mail адресов и последующей рассылки предложений потенциальным клиентам. ПО для сбора электронной почты может собрать до 100 тысяч публично отображаемых почтовых адресов за несколько часов. У Octoparse есть универсальный шаблон для сборки контактных данных со страниц LinkedIn, социальных сетей, справочников услуг, каталогов компаний.

Извлечение веб-данных

Практика массового сбора информации особенно полезна для мониторинга цен, генерации лидов, маркетингового исследования. Для анализа большого объема изменяющихся в реальном режиме показателей и масштабирования задач лучше всего подходит веб-скрапинг в облачном режиме - до 20 одновременных потоков, работающих по автоматическому расписанию. Данные можно сохранить в файл на ПК или в базу данных, сортировать, обновлять и структурировать.

Извлечение изображений

С Octoparse можно быстро формировать списки адресов изображений для последующей выгрузки. Функции и возможности скрапера позволяют автоматизировать работу: искать по мета-тегам или дате обновления, сохранить ссылки на все фотографии из карусели, загрузить URL-адреса полноразмерных картинок вместо миниатюр. Параллельно можно сохранять сопутствующую информацию с сайтов товаров, отелей, услуг — цены, локацию, описание, контакты и прочее для дальнейшего анализа. Загрузить файлы можно через сторонний загрузчик изображений или через встроенный, при локальной обработке с компьютера.

Извлечение номеров телефона

Можно собирать данные с Yelp, Google Maps, LinkedIn, сайтов услуг мастеров, в каталогах и справочниках компаний. Octoparse умеет открывать скрытые за кнопкой «Показать номер» данные и копировать их. Настроив программу, можно собирать не только телефонные номера, но и имена, комментарии, описания услуг к ним, и все это переносить в таблицу.

Разнородный сбор данных

Octoparse собирает информацию с сайтов, использующих технологии защиты от парсинга. Его функции позволяют решать такие задачи, как:

  • Извлечение информации с динамических ресурсов, использующих JavaScript и AJAX;
  • Парсинг сайтов с бесконечной прокруткой;
  • Агрегация онлайн-новостей и статей из разных источников;
  • Извлечение вложенных и встроенных структур;
  • Получение данных электронной коммерции, включая данные отзывов, списки поставщиков, рейтинги, цены с Amazon, eBay, Aliexpress и других площадок.

Интегрированный в Octoparse API дает возможность извлекать информацию, не дожидаясь ответа веб-сервера, автоматически отправлять информацию из облака в собственную рабочую среду - CRM, а также настроить любые скрипты и параметры задач. Для простых задач будет достаточно бесплатной версии, а для полной реализации крупных проектов стоит обратить внимание на платный пакет.

Тарифы Octoparse

Существует три вида подписки: бесплатная, стандартная и профессиональная. Оба платных варианта можно попробовать в течение 14 дней бесплатно, зарегистрировавшись и подав заявку. В платных пакетах есть возможность вернуть деньги в течение 5 дней. На годовые подписки Octoparse цены выгоднее, чем помесячная оплата.

4.png

Для всех планов используется одно и то же клиентское ПО, разница только в доступном функционале.

Free

Для небольших проектов есть возможность использовать Octoparse бесплатно, причем нет ограничений на количество обрабатываемых страниц. Разрешено настроить до 10 задач, а одновременно запускать только две. Можно использовать бесплатную версию только в формате запуска с локального ПК, облачный парсинг — недоступен.

Standard plan

Оптимальное решение для малого бизнеса и отдельных сотрудников, предоставляет доступ к почти всем востребованным функциям. Главные преимущества — более сотни готовых шаблонов для различных платформ, до 100 одновременных задач, доступ к облачным процессам, а также:

  • Возможность интеграции прокси в Octoparse для изменения IP и настройки ротации, что позволяет увеличить количество запросов не рискуя потенциальной блокировкой;
  • Выгрузка изображений и файлов в форматах jpg, png, gif, doc, pdf, ppt, txt, xls и zip;
  • Автоэкспорт данных и доступ через API.

Professional plan

Пакет для масштабных задач: увеличено количество заданий до 250 и можно использовать 20 облачных процессов одновременно. Есть функция облачного автокопирования. Клиентам предлагается индивидуальное обучение и приоритетная техподдержка.

Тариф Free Standard Professional
Стоимость Бесплатно $89/месяц $900 в год (экономия 16%) $249/месяц $2496 в год (экономия 16%)
Количество задач 10 100 250
Параллельные локальные задачи на ПК 2 Безлимит Безлимит
Параллельные задачи в облаке 0 6 20
Ротация IP-прокси Да Да Да
Поддержка прокси-серверов Да Да Да
Запланированный парсинг Нет Да Да
API-интеграция с CRM Нет Да Да
Обход капчи Нет Да Да
Сбор данных изображений Да Да Да

Крупные корпоративные клиенты могут запросить индивидуальный тарифный план, рассчитываемый по запросу и потребностям.

Интерфейс Octoparse

После запуска программа предлагает зарегистрироваться на сайте через аккаунты Google, Microsoft, или e-mail адрес, и автоматически входит в профиль. Всплывает окно с кратким представлением возможностей, и затем пользователю предлагают пройти короткое обучение в пошаговом демо.

5.png

6.png

Профиль пользователя

Во вкладке аккаунта собрана краткая информация:

  • Данные пользователя: аватар, e-mail адрес, полное имя, логин, пароль;
  • Тип подписки и срок ее истечения;
  • Связанные аккаунты;
  • Средства на балансе и возможность управлять действиями команды.

    7.png

Создание новой задачи

Вся работа с Octoparse начинается с создания задачи — набора инструкций, которым должна следовать программа. На боковой панели нужно нажать иконку «New» и выбрать:

  • Custom Task — расширенный режим для пользовательской настройки задачи;
  • Task Template — готовые шаблоны для большинства сервисов, доступные только в платной подписке.

    8.png

Выбрав «Custom Task», можно выбрать источник URL — ввести вручную, импортировать из файла или из другой задачи. Есть функция «Batch generate», с помощью которой легко генерировать большое количество ссылок по шаблонам, на основе заданного URL-адреса. Задание также можно отнести к необходимой группе.

9.png

Dashboard — информационная панель

На информационной панели видны уже созданные задачи и методы управления:

  • Запустить в облаке или на компьютере;
  • Настроить автозапуск;
  • Посмотреть, какие выполняются в облаке, и какие завершены;
  • Использовать фильтры;
  • Осуществлять поиск по заданиям;
  • Выполнять различные действия с задачами: дублировать, посмотреть данные, экспортировать, удалить и т.д.

    10.png

Шаблоны

На вкладке «Templates» представлены шаблоны веб-скрапинга — набор предварительно отформатированных задач, готовых к запуску без необходимости настройки каких-либо правил парсинга или написания кода.

Все шаблоны разделены по вкладкам:

  • Контактная информация и потенциальные клиенты — парсинг электронной почты, телефонов, ссылок профилей в соцсетях;
  • Электронная коммерция — данные о товарах, ценах и доставке;
  • Путешествия — название отеля, адрес, звезды, удобства, информация о завтраке, количество отзывов, средний балл, количество номеров;
  • Социальные медиа — имена пользователей, содержимое публикации, количество лайков, местоположение, URL-адрес изображения или видео, описание видео.

Также присутствуют различные заранее заготовленные шаблоны для других ресурсов.

11.png

При использовании традиционной техники парсинга веб-страниц необходимо изучить Python, чтобы создать один шаблон задачи, а Octoparse предлагает уже готовую сборку. Достаточно выбрать темплейт и указать конкретный адрес.

12.png

Инструменты

На панели инструментов представлены:

  • RegEx — для автоматического создания регулярных выражений путем настройки различных критериев. Полезен для сопоставления или замены символов в значениях полей, чтобы уточнить извлеченные данные.
  • Database auto-export tool — для автоматической отправки результатов в Excel или базы данных MySQL, SQLSERVER, Oracle или другие.

    13.png

Как создать новую задачу в Octoparse

Рассмотрим процесс на практическом примере:

Шаг 1. Создание новой задачи парсинга

Для начала работы нужно нажать на иконку «New» и выбрать «Custom Task». Скопируйте URL-адрес сайта и вставьте его в строку «URL Input». Нажмите «Save», чтобы сохранить задачу. Как вариант, можно сразу ввести ссылку в строку поиска на главной странице и нажать «Start».

14.png

15.png

Шаг 2. Автоматическое определение полей данных

Octoparse загружает страницу в свой встроенный браузер. Нажмите «Auto-detect webpage data» на панели «Tips». Программа просканирует страницу и предложит соответствующие поля.

16.png

17.png

Шаг 3. Настройка полей данных

Просмотрите предлагаемые поля данных и убедитесь, что выделены необходимые элементы на странице. Переименовать или удалить поля можно при помощи панели «Data Preview» внизу.

18.png

Шаг 4. Построение рабочего процесса парсинга

Нажмите «Create Workflow», чтобы определить каждый шаг процесса. Нажимая на каждое действие, можно убедиться, что парсер работает правильно.

19.png

Шаг 5. Запуск и планирование парсера

Нажимаем «Run» справа вверху:

20.png

Выбираем сервер, на котором будет обрабатываться запрос:

  • «Run on your device»: опция, доступная для бесплатной версии. Используется интернет-канал провайдера и мощности собственного компьютера.
  • «Run in the Cloud»: более быстрый вариант, подходящий для постоянного парсинга. Можно запланировать автозапуск для динамических веб-сайтов с часто обновляемым контентом и сохранять актуальные данные.

Здесь же можно настроить автоматическое расписание запуска:

21.png

Шаг 6. Экспорт полученных данных

После завершения работы парсера можно экспортировать результаты в формат Excel, CSV, HTML, Xml, JSON, в базы данных или Google Таблицы для дальнейшего анализа.

22.png

Пошаговая настройка прокси в парсере Octoparse

Чтобы обойти защиту от парсинга на большинстве ресурсов и снизить риск блокировки, вызванный множеством одновременных запросов с одного IP, рекомендуется воспользоваться встроенным функционалом автоматической ротации прокси. Чтобы осуществить настройку, разрешено использовать собственные или предоставленные программой прокси. Рассмотрим на конкретном примере уже созданной задачи:

  1. Откройте задачу и нажмите на «Task Settings».

    23.png

  2. Выберите пункт «Anti-Blocking», включите доступ через прокси и укажите «Use my own proxies». Нажмите кнопку «Configure»:

    24.png

  3. Установите время ротации и введите адреса в формате IP:port:username:password.

    25.png

  4. Нажмите «Confirm» и укажите дополнительные параметры при необходимости:

    26.png

  5. Нажмите «Save» и запустите задачу. Теперь IP будут чередоваться, a cookies очищаться автоматически. Настройка прокси в Octoparse завершена.

Подводим итоги

В этом обзоре Octoparse мы рассмотрели его основные особенности, возможности, функции и настройки. Это простой, и вместе с тем, мощный инструмент для парсинга веб-данных с обычных и динамически обновляемых сайтов. Для беспрепятственной работы и активного сбора данных без блокировки его стоит использовать с прокси-серверами. Можно настроить индивидуальные датацентр прокси IPv4 или ISP, но в таком случае понадобится использовать пул адресов и настраивать их ротацию. Как альтернативу, рекомендуем выбрать мобильные и резидентские прокси с высоким траст-показателем.

Комментарии:

0 комментариев