Налаштування проксі-серверів за допомогою Octoparse

Збільште ефективність парсингу з Octoparse: налаштуйте проксі-сервери легко. Уникайте блокування, збираючи дані анонімно й надійно.

785

20 серпня 2023

Що таке Octoparse?

Octoparse - це зручний інструмент для вилучення даних, який дозволяє легко вилучати загальнодоступні дані без кодування. Він надає такі функції, як автоматична ротація IP-адрес і збільшений час сеансу, щоб обійти механізми антискрепінгу. Завдяки вдосконаленим алгоритмам машинного навчання Octoparse може швидко ідентифікувати та витягувати дані зі складних веб-сайтів. Він може захоплювати різні типи даних, включаючи текст, посилання, URL-адреси зображень і HTML-код.

Налаштування параметрів проксі в Octoparse - це простий процес. Ось як ви можете це зробити:

  1. Завантажте та встановіть Octoparse з офіційного сайту. Після встановлення відкрийте програму.
  2. Натисніть кнопку "+Новий" у верхньому лівому кутку, щоб створити нове завдання. Виберіть "Користувацьке завдання" з доступних варіантів.
    Налаштування проксі-серверів за допомогою Octoparse
  3. Введіть URL-адресу веб-сторінки, з якої ви хочете витягти дані, у полі введення URL-адреси. Для прикладу візьмемо "books.toscrape.com". Натисніть кнопку Зберегти.
    Налаштування проксі-серверів за допомогою Octoparse
  4. Після завантаження обраної URL-адреси натисніть кнопку "Налаштування", розташовану у верхньому правому куті.
    Налаштування проксі-серверів за допомогою Octoparse
  5. Прокрутіть вниз, щоб знайти розділ "Налаштування антиблокування".
  6. Встановіть прапорець "Доступ до веб-сайтів через проксі-сервери". Після цього з'являться опції для використання власних проксі-серверів і кнопка "Налаштувати".
    Налаштування проксі-серверів за допомогою Octoparse
  7. Натисніть кнопку Налаштувати, після чого з'явиться спливаюче вікно. Скопіюйте та вставте IP-адреси ваших проксі-серверів stableproxy у поле. Переконайтеся, що формат має вигляд IP:PORT.
    Ротаційні резидентні проксі:
    Вибір IP-адреси: Вкажіть IP-адресу для ротаційних проксі-серверів. Наприклад, ми будемо використовувати IP-адресу de-1.stableproxy.com
    Налаштування проксі-серверів за допомогою Octoparse
  8. Налаштуйте інтервал перемикання відповідно до ваших уподобань, залежно від того, чи використовуєте ви ротаційний або липкий тип сесії.
  9. Натисніть кнопку Підтвердити, щоб зберегти зміни.
  10. Щоб перевірити успішну інтеграцію Octoparse, перевірте наявність галочки навпроти кнопки Налаштувати в розділі Налаштування антиблокування.
  11. Збережіть зміни, натиснувши кнопку Зберегти.
  12. Ви повернетесь на головний екран сторінки, яку вилучаєте.
  13. Натисніть на іконку лампочки, щоб розгорнути її і вибрати, чи потрібно розбити сторінку на сторінки або додати прокрутку.
  14. Після того, як ви зробили свій вибір, натисніть кнопку "Створити робочий процес".
    Налаштування проксі-серверів за допомогою Octoparse
  15. Виберіть елемент сторінки, який ви хочете витягти, наприклад, "Загадка". Натисніть на нього і виберіть "Витягти текст виділеного елемента".
  16. З'явиться спливаюче вікно. Натисніть "Зберегти" у верхньому правому куті, а потім "Виконати".
  17. Ще одне спливаюче вікно покаже різні варіанти. Виберіть найбільш релевантний для вас (деякі опції можуть вимагати оплати). Для нашого прикладу ми виберемо "Запустити на вашому пристрої" і "Стандартний режим".
    Налаштування проксі-серверів за допомогою Octoparse
  18. Відкриється нова сторінка, і почнеться процес скрапінгу. Ви можете призупинити і відновити його за потреби.
  19. Оскільки це лише приклад, ми зупинимося на цьому. Підтвердіть, щоб зупинити запуск.
  20. Ви побачите деякі статистичні дані для вашого завдання вилучення. Виберіть, чи експортувати дані зараз або пізніше; зараз ми виберемо "зараз".
  21. З'явиться останнє спливаюче вікно, яке дозволить вам вибрати формат даних для вилучення.
  22. Виберіть формат, який відповідає вашим потребам.

Все готово! Ви все налаштували і готові зосередитися на своїх завданнях по вилученню даних з веб-сторінок за допомогою Octoparse.