Настройка прокси-серверов с помощью Octoparse

Повышение эффективности парсинга с помощью Octoparse: простая настройка прокси-серверов. Избегайте блокировки, собирая данные анонимно и безопасно.

1662

20 августа 2023

Что такое Octoparse?

Octoparse - это удобный инструмент для извлечения данных, который позволяет легко извлекать общедоступные данные без кодирования. Он предоставляет такие функции, как автоматическая ротация IP-адресов и увеличенное время сеанса, чтобы обойти механизмы антискрепинга. Благодаря усовершенствованным алгоритмам машинного обучения Octoparse может быстро идентифицировать и извлекать данные из сложных веб-сайтов. Он может захватывать различные типы данных, включая текст, ссылки, URL-адреса изображений и HTML-код.

Настройка параметров прокси в Octoparse - это простой процесс. Вот как вы можете это сделать:

  1. Загрузите и установите Octoparse с официального сайта. После установки откройте программу.
  2. Нажмите кнопку "+Новый" в верхнем левом углу, чтобы создать новую задачу. Выберите "Пользовательское задание" из доступных вариантов.
    Настройка прокси-серверов с помощью Octoparse
  3. Введите URL-адрес веб-страницы, с которой вы хотите извлечь данные, в поле ввода URL-адреса. Для примера возьмем "books.toscrape.com". Нажмите кнопку Сохранить.
    Настройка прокси-серверов с помощью Octoparse
  4. После загрузки выбранного URL-адреса нажмите кнопку "Настройки", расположенную в верхнем правом углу.
    Настройка прокси-серверов с помощью Octoparse
  5. Прокрутите вниз, чтобы найти раздел "Настройки антиблокировки".
  6. Установите флажок "Доступ к веб-сайтам через прокси-серверы". После этого появятся опции для использования собственных прокси-серверов и кнопка "Настроить".
    Настройка прокси-серверов с помощью Octoparse
  7. Нажмите кнопку Настроить, после чего появится всплывающее окно. Скопируйте и вставьте IP-адреса ваших прокси-серверов stableproxy в поле. Убедитесь, что формат имеет вид IP:PORT.
    Ротационные резидентные прокси:
    Выбор IP-адреса: Укажите IP-адрес для ротационных прокси-серверов. Например, мы будем использовать IP-адрес de-1.stableproxy.com
    Настройка прокси-серверов с помощью Octoparse
  8. Настройте интервал переключения в соответствии с вашими предпочтениями, в зависимости от того, используете ли вы ротационный или липкий тип сессии.
  9. Нажмите кнопку Подтвердить, чтобы сохранить изменения.
  10. Чтобы проверить успешную интеграцию Octoparse, проверьте наличие галочки напротив кнопки Настроить в разделе Настройки антиблокировки.
  11. Сохраните изменения, нажав кнопку Сохранить.
  12. Вы вернетесь на главный экран страницы, которую удаляете.
  13. Нажмите на иконку лампочки, чтобы развернуть ее и выбрать, нужно ли разбить страницу на страницы или добавить прокрутку.
  14. После того, как вы сделали свой выбор, нажмите кнопку "Создать рабочий процесс".
    Настройка прокси-серверов с помощью Octoparse
  15. Выберите элемент страницы, который вы хотите извлечь, например, "Загадка". Нажмите на него и выберите "Извлечь текст выделенного элемента".
  16. Появится всплывающее окно. Нажмите "Сохранить" в верхнем правом углу, а затем "Выполнить".
  17. Еще одно всплывающее окно покажет различные варианты. Выберите наиболее подходящий для вас (некоторые опции могут потребовать оплаты). Для нашего примера мы выберем "Запустить на вашем устройстве" и "Стандартный режим".
    Настройка прокси-серверов с помощью Octoparse
  18. Откроется новая страница, и начнется процесс скрапинга. Вы можете приостановить и возобновить его при необходимости.
  19. Поскольку это только пример, мы остановимся на этом. Подтвердите, чтобы остановить запуск.
  20. Вы увидите некоторые статистические данные для вашей задачи извлечения. Выберите, экспортировать ли данные сейчас или позже; сейчас мы выберем "сейчас".
  21. Появится последнее всплывающее окно, которое позволит вам выбрать формат данных для извлечения.
  22.  выберите формат, который соответствует вашим потребностям.

Все готово! Вы все настроили и готовы сосредоточиться на своих задачах по извлечению данных из веб-страниц с помощью Octoparse.