Logi serwera – jak wykorzystać je w procesie SEO?

Blog page

Logi serwera to kluczowy element infrastruktury IT. Te cyfrowe rejestry zdarzeń pełnią istotną rolę w utrzymaniu stabilności i bezpieczeństwa systemów informatycznych. Rejestrując szereg działań – od rutynowych operacji po potencjalne zagrożenia – logi serwera dostarczają administratorom bezcennych informacji. W ponizszym wspisie dowiesz się więcej o tym czym są logi serwera, gdzie możesz je znaleźć i jak wykorzystać ich potencjał pod kątem pozycjonowania.

Logi serwera – czym one są?

Logi serwera to automatycznie generowany i zapisywany plik będący rejestrem wszystkich żądań przychodzących do serwera lub strony internetowej oraz z nich wychodzących.

Logi serwera są chronologicznym zapisem informacji i operacji, dzięki którym szczegółowo możemy dowiedzieć się o wszystkich żądaniach podejmowanych na naszej stronie przez użytkowników czy boty.

Jakie informacje zawierają logi serwera?

Za każdym razem, gdy klient (bot albo użytkownik) odwiedza URL domeny hostowany na serwerze, wysyła liczne żądania o dostęp do plików, dzięki którym może zostać obsłużony przez witrynę i zostaje mu ona przedstawiona w taki sposób, jaki ją widzimy po odwiedzeniu strony. Już od pierwszego żądania w logach serwera powstają wpisy o wymienianych informacjach między klientem a serwerem.

Logi serwera można nazwać historią odebranych przez serwer żądań, ale też i jego odpowiedzi (oraz ich rodzaju). Informacje jakie mogą się znajdować w logach serwera są różne, wszystko zależne jest od konfiguracji serwera, którą możemy zmieniać wedle naszego zapotrzebowania.

Podstawowymi informacjami które możemy znaleźć między innymi są:

  • Adres IP – unikalny identyfikator urządzenia łączącego się z serwerem
  • Status HTTP – kod odpowiedzi serwera, np. 200 (sukces), 404 (nie znaleziono), 500 (błąd wewnętrzny serwera).
  • Rozmiar odpowiedzi – liczba bajtów przesłanych w odpowiedzi przez serwer.
  • User-agent – informacje o przeglądarce lub robocie, który odwiedził witrynę.
  • Czas żądania – data i godzina złożenia żądania.
  • URL żądania – adres URL strony, do której dostęp próbował uzyskać użytkownik lub bot.

Poniżej przedstawiam tabelę prezentującą przykładowe wpisy z logów serwera i ich interpretację:

Adres IPCzas żądaniaStatus HTTPUser-agentURL żądania
192.168.1.12023-10-01 12:34:56200Googlebot/2.1 (+http://google.com/bot.html)/strona-glowna
203.0.113.452023-10-02 14:22:33404Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36/nieistniejaca-strona
198.51.100.232023-10-03 09:15:12500bingbot/2.0 (+http://www.bing.com/bingbot.htm)/kontakt
  • 192.168.1.1: Googlebot odwiedził stronę główną i uzyskał odpowiedź 200, co oznacza, że strona została poprawnie załadowana.
  • 203.0.113.45: Użytkownik próbował odwiedzić stronę, która nie istnieje, co zakończyło się błędem 404.
  • 198.51.100.23: Bingbot napotkał wewnętrzny błąd serwera (500) podczas próby dostępu do strony kontaktowej.

Rozpisując jeden przykład na składowe, możemy uzyskać następujące informacje:

66.249.66.1 – – [12/Jun/2024:14:23:41 +0200] „GET /index.html HTTP/1.1” 200 3524 „-” „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

  • 66.249.66.1 – Adres IP – jest to adres IP, z którego pochodzi żądanie. W tym przypadku jest to jeden z adresów IP używanych przez Googlebota.
  • – – – Miejsce na identyfikator użytkownika i uwierzytelnianie – dwa myślniki oznaczają, że te pola są puste. Pierwszy myślnik reprezentuje identyfikator użytkownika (RFC 1413), a drugi identyfikator uwierzytelnienia użytkownika (jeśli byłby zalogowany).
  • [12/Jun/2024:14:23:41 +0200] – Data i czas – data i godzina, kiedy żądanie zostało otrzymane przez serwer. Format to [dzień/miesiąc/rok:godzina:minuta
  • strefa czasowa].
  • „GET /index.html HTTP/1.1” – Żądanie – wskazuje metodę HTTP (GET), zasób (/index.html), który został żądany oraz wersję protokołu HTTP (HTTP/1.1).
  • 200 – Kod statusu http – oznacza, że żądanie zakończyło się sukcesem. Inne przykładowe kody to 404 (nie znaleziono) czy 500 (błąd serwera).
  • 3524 – Rozmiar odpowiedzi – liczba bajtów przesłanych w odpowiedzi przez serwer. W tym przypadku 3524 bajtów.
  • „-” – Referrer – wskazuje stronę odsyłającą (referrer), z której pochodzi żądanie. Myślnik oznacza brak informacji o referrerze.
  • „Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)” – User-Agent – informacje o przeglądarce lub robocie, który wysłał żądanie. W tym przypadku jest to Googlebot 2.1, co wskazuje na robota indeksującego Google.

Jak wykorzystać logi serwera w SEO?

Skoro znamy już podstawy, wiemy, że dzięki logom serwera możemy prześledzić aktywność każdego użytkownika i bota, który chciał uzyskać dostęp do zasobów naszej strony z serwera. Jednak jak te informacje mogą przydać się w trakcie pozycjonowania serwisu internetowego i jego funkcjonowaniu?

Logi serwera pomogą Ci zidentyfikować problemy techniczne

Analiza logów serwera jest kluczowym elementem w identyfikowaniu i rozwiązywaniu problemów technicznych na witrynie.

Dzięki logom serwera możesz zobaczyć, jak boty wyszukiwarek przeszukują Twoją stronę, które strony napotykają problemy oraz które zasoby nie są w pełni dla nich dostępne. Analiza umożliwia śledzenie wcześniej wspominanych błędów HTTP, takich jak 404 czy 500, oraz monitorowanie czasu ładowania stron.

Dzięki tym informacjom można wprowadzić niezbędne poprawki, aby zapewnić lepszą dostępność i indeksowanie treści przez wyszukiwarki, co bezpośrednio może wpłynąć na proces pozycjonowania serwisu.

Logi serwera pomogą Ci zrozumieć zachowania botów wyszukiwarek

Za pomocą logów serwera można monitorować aktywność botów i robotów wyszukiwarek na witrynie. Analizując częstość odwiedzin, rodzaje zapytań oraz ścieżki przebyte przez boty, jesteś w stanie zoptymalizować struktury URL oraz zarządzać crawl budgetem w sposób bardziej efektywny.

Czym jest crawl budget?

Każda witryna ma tzw. crawl budget, czyli liczbę stron, które roboty wyszukiwarki mogą zaindeksować w określonym czasie. Nieefektywne zarządzanie tym budżetem może skutkować pominięciem ważnych podstron Twojej witryny.

Analiza logów serwera pomaga wykryć, które zasoby zbyt intensywnie wykorzystują budżet oraz które strony mogłyby zostać zoptymalizowane bądź zablokowane w pliku robots.txt jeżeli nie są kluczowymi zakładkami w naszym procesie. Dzięki temu można lepiej wykorzystać dostępne zasoby.

Usuwanie przeszkód technicznych, które napotykają boty, sprawia, że witryna staje się bardziej przyjazna dla wyszukiwarek (a przecież czas robota na naszej stronie – to też pieniądz 😊).

Logi serwera pomogą ci wykryć i uniknąć problemów związanych ze spamem oraz atakami hackerskimi

Logi serwera mogą również pomóc w wykrywaniu działalności spamerskiej lub ataków hackerskich. Monitorowanie nietypowego ruchu oraz identyfikacja źródeł generujących nadmierną ilość zapytań są niezwykle ważne. Wpisy z nieznanych adresów IP lub nietypowymi user-agentami mogą wskazywać na próbę cyberataków czy próby zawirusowania serwisu.

Regularna analiza logów pozwoli nam więc na zapobiegnięciu niepożądanych problemów czy ingerencji nieuczciwej konkurencji w nasz serwis.

Gdzie możemy znaleźć logi serwera?

Zanim rozpoczniemy przeglądanie logów serwera, musimy uzyskać do nich dostęp. Logi to pliki przechowywane na serwerze, dlatego potrzebujemy dostępu do plików swojego serwera. Najczęściej odbywa się to poprzez protokół FTP za pomocą narzędzi takich jak Filezilla bądź przez panel klienta (jeżeli Twój dostawca usług hostingowych taki oferuje)

Jeśli jednak nie masz bezpośredniego dostępu do plików serwera ani panelu klienta, możesz poprosić o logi odpowiednią osobę, np. dostawcę hostingu lub zespół IT. Warto też pamiętać, że w niektórych przypadkach logi serwera mogą być zbierane i udostępniane przez narzędzia do monitorowania serwera lub usługi zewnętrzne, takie jak Google Cloud Logging czy AWS CloudWatch.

Dla przykładu, jeżeli masz dostęp do serwera przez FTP, poniżej znajdziesz ścieżki katalogów dla najpopularniejszych konfiguracji dla serwerów:

  • Serwer Apache – logi zwykle znajdują się w katalogu /var/log/apache2/ lub /var/log/httpd/, gdzie można znaleźć pliki takie jak access.log czy error.log.
  • Nginx – logi najczęściej są przechowywane w katalogu /var/log/nginx/.
  • IIS: – logi najczęściej znajdziesz w katalogu %SystemDrive%\inetpub\logs\LogFiles

Należy pamiętać, że dostęp do logów serwera może być ograniczony przez konfigurację serwera. Logi mogą być wyłączone, aby oszczędzać miejsce na dysku, lub nadpisywane po osiągnięciu określonego rozmiaru.

Dodatkowym wyzwaniem mogą być serwery korzystające z CDN (Content Delivery Network). CDN może przechowywać kopie logów lub generować własne logi, które różnią się formatem od logów serwera.

Narzędzia do analizy logów serwera

Logi serwerów na pierwszy rzut oka mogą wyglądać przytłaczająco i zniechęcić do ich dalszej analizy, szczególnie jeżeli nie jest się zapoznanym ze strukturą ich zapisywania i rejestracji. Poniżej przedstawiam jak wyglądają one w narzędziu do edycji tekstów .txt:

W związku z tym istnieje kilka narzędzi które pozwalają nam w przystępny sposób analizować logi serwera bez większych problemów czy wcześniejszego obycia się z logami. Oto kilka z nich:

  • Screaming Frog Log File Analyser – jest naszym pierwszym wyborem ze względu na to, że umożliwia dogłębną analizę logów serwera, pomagając w identyfikacji problemów technicznych oraz w zrozumieniu zachowań botów wyszukiwarek. Idealnie nadaje się do analizy dużych zbiorów danych i oferuje funkcje eksportu raportów do formatów takich jak Excel i CSV.
  • AWStats – to narzędzie open-source, które przetwarza logi serwera i generuje szczegółowe raporty na temat ruchu na stronie. Umożliwia analizę odwiedzin, badanie efektywności kampanii marketingowych oraz śledzenie zachowań użytkowników i robotów.
  • GoAccess – jest to narzędzie działające w linii poleceń, które pozwala na szybką analizę logów serwera w czasie rzeczywistym. GoAccess jest szczególnie przydatny dla administratorów lub webmasterów szukających szybkiej analizy bez konieczności korzystania z interfejsu graficznego.

Oprócz powyższych pozycji, które pozwolą nam szczegółowo przeanalizować logi serwerów, warto zacząć swoją analizę od Google Search Console – można w nim wychwycić część błędów wykazywaną przez analizę logów serwera w powyższych narzędziach.

Informacje, które nas interesują w narzędziu Google Search Console, możemy znaleźć w raporcie „Statystyki i indeksowania”. Raport dostępny w GSC co prawda jest ograniczony objętościowo i czasowo (do kilku ostatnich miesięcy), jednak świetnie sprawdza się jako wstępne narzędzie do analizy logów serwera.

Czy warto analizować logi serwera?

Analiza logów pozwala zauważyć problemy związane z dostępnością strony i zdobyć informacje o potencjalnych atakach hackerskich – warto je zbierać i od czasu do czasu poddawać (nawet skromnej) analizie.

Jeżeli Twoje wymagania nie obejmują szczegółowych danych i wniosków wynikających z danych zebranych w logach serwera – jak najbardziej wystarczy ci narzędzie Google Search Console, które pomimo ograniczonej wiedzy jaką nam przekazuje, jest w zupełności wystarczające do wykonania podstawowej analizy pod kątem działań SEO.

Mikołaj Deras

Specjalista SEO z głębokim zafascynowaniem do dynamicznie rozwijającego się digital-marketingu. Prowadzony pasją do technologii, stale poszukuje najnowszych trendów i innowacyjnych rozwiązań, które mogą poprawić widoczność i skuteczność witryn internetowych. Fascynacja sztuczną inteligencją jest inspiracją do eksplorowania nowych perspektyw optymalizacji stron w wyszukiwarce.