Konfigurowanie serwerów proxy za pomocą Octoparse

Zwiększ wydajność analizowania dzięki Octoparse: łatwa konfiguracja serwera proxy. Unikaj blokowania, zbierając dane anonimowo i bezpiecznie.

1666

20 sierpnia 2023

Co to jest Octoparse?

Octoparse to wygodne narzędzie do ekstrakcji danych, które umożliwia łatwe pozyskiwanie publicznych danych bez konieczności kodowania. Oferuje funkcje takie jak automatyczna rotacja adresów IP i przedłużony czas sesji, aby ominąć mechanizmy przeciwko skrapowaniu. Dzięki zaawansowanym algorytmom uczenia maszynowego Octoparse może szybko identyfikować i pozyskiwać dane ze skomplikowanych witryn internetowych. Potrafi przechwycić różne typy danych, w tym tekst, linki, adresy URL obrazów i kod HTML.

Konfiguracja parametrów proxy w Octoparse jest prostym procesem. Oto jak to zrobić:

  1. Pobierz i zainstaluj Octoparse ze strony oficjalnej. Po zainstalowaniu otwórz program.
  2. Kliknij przycisk "+Nowy" w lewym górnym rogu, aby utworzyć nowe zadanie. Wybierz "Zadanie niestandardowe" spośród dostępnych opcji.
    Konfigurowanie serwerów proxy za pomocą Octoparse
  3. Wprowadź adres URL strony internetowej, z której chcesz ekstrahować dane, do pola adresu URL. Na potrzeby przykładu weźmiemy "books.toscrape.com". Naciśnij przycisk Zapisz.
    Konfigurowanie serwerów proxy za pomocą Octoparse
  4. Po załadowaniu wybranego adresu URL naciśnij przycisk "Ustawienia", znajdujący się w prawym górnym rogu.
    Konfigurowanie serwerów proxy za pomocą Octoparse
  5. Przewiń w dół, aby znaleźć sekcję "Ustawienia antyblokujące".
  6. Zaznacz opcję "Dostęp do stron internetowych za pośrednictwem serwerów proxy". Po tym pojawią się opcje do używania własnych serwerów proxy i przycisk "Konfiguruj".
    Konfigurowanie serwerów proxy za pomocą Octoparse
  7. Naciśnij przycisk Konfiguruj, po czym pojawi się okno dialogowe. Skopiuj i wklej adresy IP swoich serwerów proxy stableproxy do pola. Upewnij się, że format ma postać IP:PORT.
    Rotujące proxy rezydentów:
    Wybór adresu IP: Podaj adres IP dla rotujących serwerów proxy. Na przykład, będziemy używać adresu IP de-1.stableproxy.com
    Konfigurowanie serwerów proxy za pomocą Octoparse
  8. Skonfiguruj interwał przełączania zgodnie z preferencjami, w zależności od tego, czy używasz rotującego lub klejącego typu sesji.
  9. Naciśnij przycisk Potwierdź, aby zapisać zmiany.
  10. Aby sprawdzić pomyślną integrację Octoparse, sprawdź obecność zakładki obok przycisku Konfiguruj w sekcji Ustawienia antyblokujące.
  11. Zapisz zmiany, naciskając przycisk Zapisz.
  12. Wrócisz do głównego ekranu strony, którą usuwasz.
  13. Kliknij ikonę żarówki, aby ją rozwinąć i wybrać, czy strona ma być podzielona na strony, czy ma być dodane przewijanie.
  14. Po dokonaniu wyboru naciśnij przycisk "Utwórz przepływ pracy".
    Konfigurowanie serwerów proxy za pomocą Octoparse
  15. Wybierz element strony, który chcesz wydobyć, na przykład, "Zagadka". Kliknij na niego i wybierz "Wyodrębnij tekst zaznaczonego elementu".
  16. Pojawi się okno dialogowe. Kliknij "Zapisz" w prawym górnym rogu, a następnie "Uruchom".
  17. Jeszcze jedno okno dialogowe pokaże różne opcje. Wybierz najbardziej odpowiednią dla siebie (niektóre opcje mogą wymagać opłaty). Na potrzeby naszego przykładu wybierzemy "Uruchom na swoim urządzeniu" i "Tryb standardowy".
    Konfigurowanie serwerów proxy za pomocą Octoparse
  18. Otworzy się nowa strona, a proces skrapowania rozpocznie się. Możesz go wstrzymać i wznowić według potrzeb.
  19. Ponieważ to tylko przykład, skończymy na tym. Potwierdź, aby zatrzymać uruchamianie.
  20. Ujrzymy kilka danych statystycznych dla naszego zadania ekstrakcji. Wybierz, czy chcesz teraz eksportować dane, czy później; teraz wybierzemy "teraz".
  21. Pojawi się ostatnie okno dialogowe, które pozwoli ci wybrać format danych do wydobycia.
  22. Wybierz format, który spełnia twoje wymagania.

Wszystko gotowe! Wszystko jest skonfigurowane i jesteś gotowy skupić się na swoich zadaniach związanych z wydobywaniem danych ze stron internetowych za pomocą Octoparse.