Настройка прокси-серверов с помощью Octoparse
Повышение эффективности парсинга с помощью Octoparse: простая настройка прокси-серверов. Избегайте блокировки, собирая данные анонимно и безопасно.
1662
20 августа 2023
Что такое Octoparse?
Octoparse - это удобный инструмент для извлечения данных, который позволяет легко извлекать общедоступные данные без кодирования. Он предоставляет такие функции, как автоматическая ротация IP-адресов и увеличенное время сеанса, чтобы обойти механизмы антискрепинга. Благодаря усовершенствованным алгоритмам машинного обучения Octoparse может быстро идентифицировать и извлекать данные из сложных веб-сайтов. Он может захватывать различные типы данных, включая текст, ссылки, URL-адреса изображений и HTML-код.
Настройка параметров прокси в Octoparse - это простой процесс. Вот как вы можете это сделать:
- Загрузите и установите Octoparse с официального сайта. После установки откройте программу.
- Нажмите кнопку "+Новый" в верхнем левом углу, чтобы создать новую задачу. Выберите "Пользовательское задание" из доступных вариантов.
- Введите URL-адрес веб-страницы, с которой вы хотите извлечь данные, в поле ввода URL-адреса. Для примера возьмем "books.toscrape.com". Нажмите кнопку Сохранить.
- После загрузки выбранного URL-адреса нажмите кнопку "Настройки", расположенную в верхнем правом углу.
- Прокрутите вниз, чтобы найти раздел "Настройки антиблокировки".
- Установите флажок "Доступ к веб-сайтам через прокси-серверы". После этого появятся опции для использования собственных прокси-серверов и кнопка "Настроить".
- Нажмите кнопку Настроить, после чего появится всплывающее окно. Скопируйте и вставьте IP-адреса ваших прокси-серверов stableproxy в поле. Убедитесь, что формат имеет вид IP:PORT.
Ротационные резидентные прокси:
Выбор IP-адреса: Укажите IP-адрес для ротационных прокси-серверов. Например, мы будем использовать IP-адрес de-1.stableproxy.com
- Настройте интервал переключения в соответствии с вашими предпочтениями, в зависимости от того, используете ли вы ротационный или липкий тип сессии.
- Нажмите кнопку Подтвердить, чтобы сохранить изменения.
- Чтобы проверить успешную интеграцию Octoparse, проверьте наличие галочки напротив кнопки Настроить в разделе Настройки антиблокировки.
- Сохраните изменения, нажав кнопку Сохранить.
- Вы вернетесь на главный экран страницы, которую удаляете.
- Нажмите на иконку лампочки, чтобы развернуть ее и выбрать, нужно ли разбить страницу на страницы или добавить прокрутку.
- После того, как вы сделали свой выбор, нажмите кнопку "Создать рабочий процесс".
- Выберите элемент страницы, который вы хотите извлечь, например, "Загадка". Нажмите на него и выберите "Извлечь текст выделенного элемента".
- Появится всплывающее окно. Нажмите "Сохранить" в верхнем правом углу, а затем "Выполнить".
- Еще одно всплывающее окно покажет различные варианты. Выберите наиболее подходящий для вас (некоторые опции могут потребовать оплаты). Для нашего примера мы выберем "Запустить на вашем устройстве" и "Стандартный режим".
- Откроется новая страница, и начнется процесс скрапинга. Вы можете приостановить и возобновить его при необходимости.
- Поскольку это только пример, мы остановимся на этом. Подтвердите, чтобы остановить запуск.
- Вы увидите некоторые статистические данные для вашей задачи извлечения. Выберите, экспортировать ли данные сейчас или позже; сейчас мы выберем "сейчас".
- Появится последнее всплывающее окно, которое позволит вам выбрать формат данных для извлечения.
- выберите формат, который соответствует вашим потребностям.
Все готово! Вы все настроили и готовы сосредоточиться на своих задачах по извлечению данных из веб-страниц с помощью Octoparse.