Налаштування проксі-серверів за допомогою Octoparse
Збільште ефективність парсингу з Octoparse: налаштуйте проксі-сервери легко. Уникайте блокування, збираючи дані анонімно й надійно.
1442
20 серпня 2023
Що таке Octoparse?
Octoparse - це зручний інструмент для вилучення даних, який дозволяє легко вилучати загальнодоступні дані без кодування. Він надає такі функції, як автоматична ротація IP-адрес і збільшений час сеансу, щоб обійти механізми антискрепінгу. Завдяки вдосконаленим алгоритмам машинного навчання Octoparse може швидко ідентифікувати та витягувати дані зі складних веб-сайтів. Він може захоплювати різні типи даних, включаючи текст, посилання, URL-адреси зображень і HTML-код.
Налаштування параметрів проксі в Octoparse - це простий процес. Ось як ви можете це зробити:
- Завантажте та встановіть Octoparse з офіційного сайту. Після встановлення відкрийте програму.
- Натисніть кнопку "+Новий" у верхньому лівому кутку, щоб створити нове завдання. Виберіть "Користувацьке завдання" з доступних варіантів.
- Введіть URL-адресу веб-сторінки, з якої ви хочете витягти дані, у полі введення URL-адреси. Для прикладу візьмемо "books.toscrape.com". Натисніть кнопку Зберегти.
- Після завантаження обраної URL-адреси натисніть кнопку "Налаштування", розташовану у верхньому правому куті.
- Прокрутіть вниз, щоб знайти розділ "Налаштування антиблокування".
- Встановіть прапорець "Доступ до веб-сайтів через проксі-сервери". Після цього з'являться опції для використання власних проксі-серверів і кнопка "Налаштувати".
- Натисніть кнопку Налаштувати, після чого з'явиться спливаюче вікно. Скопіюйте та вставте IP-адреси ваших проксі-серверів stableproxy у поле. Переконайтеся, що формат має вигляд IP:PORT.
Ротаційні резидентні проксі:
Вибір IP-адреси: Вкажіть IP-адресу для ротаційних проксі-серверів. Наприклад, ми будемо використовувати IP-адресу de-1.stableproxy.com
- Налаштуйте інтервал перемикання відповідно до ваших уподобань, залежно від того, чи використовуєте ви ротаційний або липкий тип сесії.
- Натисніть кнопку Підтвердити, щоб зберегти зміни.
- Щоб перевірити успішну інтеграцію Octoparse, перевірте наявність галочки навпроти кнопки Налаштувати в розділі Налаштування антиблокування.
- Збережіть зміни, натиснувши кнопку Зберегти.
- Ви повернетесь на головний екран сторінки, яку вилучаєте.
- Натисніть на іконку лампочки, щоб розгорнути її і вибрати, чи потрібно розбити сторінку на сторінки або додати прокрутку.
- Після того, як ви зробили свій вибір, натисніть кнопку "Створити робочий процес".
- Виберіть елемент сторінки, який ви хочете витягти, наприклад, "Загадка". Натисніть на нього і виберіть "Витягти текст виділеного елемента".
- З'явиться спливаюче вікно. Натисніть "Зберегти" у верхньому правому куті, а потім "Виконати".
- Ще одне спливаюче вікно покаже різні варіанти. Виберіть найбільш релевантний для вас (деякі опції можуть вимагати оплати). Для нашого прикладу ми виберемо "Запустити на вашому пристрої" і "Стандартний режим".
- Відкриється нова сторінка, і почнеться процес скрапінгу. Ви можете призупинити і відновити його за потреби.
- Оскільки це лише приклад, ми зупинимося на цьому. Підтвердіть, щоб зупинити запуск.
- Ви побачите деякі статистичні дані для вашого завдання вилучення. Виберіть, чи експортувати дані зараз або пізніше; зараз ми виберемо "зараз".
- З'явиться останнє спливаюче вікно, яке дозволить вам вибрати формат даних для вилучення.
- Виберіть формат, який відповідає вашим потребам.
Все готово! Ви все налаштували і готові зосередитися на своїх завданнях по вилученню даних з веб-сторінок за допомогою Octoparse.