Konfigurowanie serwerów proxy za pomocą Octoparse
Zwiększ wydajność analizowania dzięki Octoparse: łatwa konfiguracja serwera proxy. Unikaj blokowania, zbierając dane anonimowo i bezpiecznie.
1666
20 sierpnia 2023
Co to jest Octoparse?
Octoparse to wygodne narzędzie do ekstrakcji danych, które umożliwia łatwe pozyskiwanie publicznych danych bez konieczności kodowania. Oferuje funkcje takie jak automatyczna rotacja adresów IP i przedłużony czas sesji, aby ominąć mechanizmy przeciwko skrapowaniu. Dzięki zaawansowanym algorytmom uczenia maszynowego Octoparse może szybko identyfikować i pozyskiwać dane ze skomplikowanych witryn internetowych. Potrafi przechwycić różne typy danych, w tym tekst, linki, adresy URL obrazów i kod HTML.
Konfiguracja parametrów proxy w Octoparse jest prostym procesem. Oto jak to zrobić:
- Pobierz i zainstaluj Octoparse ze strony oficjalnej. Po zainstalowaniu otwórz program.
- Kliknij przycisk "+Nowy" w lewym górnym rogu, aby utworzyć nowe zadanie. Wybierz "Zadanie niestandardowe" spośród dostępnych opcji.
- Wprowadź adres URL strony internetowej, z której chcesz ekstrahować dane, do pola adresu URL. Na potrzeby przykładu weźmiemy "books.toscrape.com". Naciśnij przycisk Zapisz.
- Po załadowaniu wybranego adresu URL naciśnij przycisk "Ustawienia", znajdujący się w prawym górnym rogu.
- Przewiń w dół, aby znaleźć sekcję "Ustawienia antyblokujące".
- Zaznacz opcję "Dostęp do stron internetowych za pośrednictwem serwerów proxy". Po tym pojawią się opcje do używania własnych serwerów proxy i przycisk "Konfiguruj".
- Naciśnij przycisk Konfiguruj, po czym pojawi się okno dialogowe. Skopiuj i wklej adresy IP swoich serwerów proxy stableproxy do pola. Upewnij się, że format ma postać IP:PORT.
Rotujące proxy rezydentów:
Wybór adresu IP: Podaj adres IP dla rotujących serwerów proxy. Na przykład, będziemy używać adresu IP de-1.stableproxy.com
- Skonfiguruj interwał przełączania zgodnie z preferencjami, w zależności od tego, czy używasz rotującego lub klejącego typu sesji.
- Naciśnij przycisk Potwierdź, aby zapisać zmiany.
- Aby sprawdzić pomyślną integrację Octoparse, sprawdź obecność zakładki obok przycisku Konfiguruj w sekcji Ustawienia antyblokujące.
- Zapisz zmiany, naciskając przycisk Zapisz.
- Wrócisz do głównego ekranu strony, którą usuwasz.
- Kliknij ikonę żarówki, aby ją rozwinąć i wybrać, czy strona ma być podzielona na strony, czy ma być dodane przewijanie.
- Po dokonaniu wyboru naciśnij przycisk "Utwórz przepływ pracy".
- Wybierz element strony, który chcesz wydobyć, na przykład, "Zagadka". Kliknij na niego i wybierz "Wyodrębnij tekst zaznaczonego elementu".
- Pojawi się okno dialogowe. Kliknij "Zapisz" w prawym górnym rogu, a następnie "Uruchom".
- Jeszcze jedno okno dialogowe pokaże różne opcje. Wybierz najbardziej odpowiednią dla siebie (niektóre opcje mogą wymagać opłaty). Na potrzeby naszego przykładu wybierzemy "Uruchom na swoim urządzeniu" i "Tryb standardowy".
- Otworzy się nowa strona, a proces skrapowania rozpocznie się. Możesz go wstrzymać i wznowić według potrzeb.
- Ponieważ to tylko przykład, skończymy na tym. Potwierdź, aby zatrzymać uruchamianie.
- Ujrzymy kilka danych statystycznych dla naszego zadania ekstrakcji. Wybierz, czy chcesz teraz eksportować dane, czy później; teraz wybierzemy "teraz".
- Pojawi się ostatnie okno dialogowe, które pozwoli ci wybrać format danych do wydobycia.
- Wybierz format, który spełnia twoje wymagania.
Wszystko gotowe! Wszystko jest skonfigurowane i jesteś gotowy skupić się na swoich zadaniach związanych z wydobywaniem danych ze stron internetowych za pomocą Octoparse.