4 października 2024

0 Komentarzy

Audytując treści blogowe serwisu, warto zagłębić się również w kwestie techniczne – które w prosty sposób możemy wyciągnąć ze Screaming Froga. Zwykle nie ma z tym problemu w sytuacji, gdy mamy do czynienia z małym serwisem. Gorzej, gdy nasza strona jest na przykład sklepem internetowym posiadającym tysiące produktów. Jak zawęzić wykonanie crawla, aby efektywnie wyciągnąć dane jedynie z sekcji bloga?

Spis treści

Konstrukcja serwisu

Zacznijmy jednak od rozważenia przypadków, jakie mogą nas spotkać. Istnieją de facto 2 sytuacje, z którymi możemy mieć do czynienia:

Wydzielony katalog w URL bloga

Przy sprzyjających warunkach nasz blog będzie miał ustaloną konstrukcję adresu URL. Oznacza to, że w adresie każdego artykułu blogowego znajdziemy stały katalog, po którym możemy w prosty sposób zawęzić działania naszego crawla.

Może to być np.:

nazwa-serwisu.pl/blog/tytul-artykulu/
nazwa-serwisu.pl/post/tytul-artykulu/

itd.

Brak wydzielonego katalogu w URL bloga

W przypadku wielu stron jednak nie jest to takie proste.

Bardzo często strony, np. stojące na WordPressie (najpopularniejszym CMS w Internecie), nie mają wydzielonego katalogu w URL, a ich konstrukcja adresów URL wygląda tak: nazwa-serwisu.pl/tytul-artykulu/.

W takim przypadku zmuszeni jesteśmy do nieco większego kombinowania, ale bez obaw – nie wszystko stracone.

Zawężenie do katalogu

Jeśli nasze artykuły blogowe mają w ścieżce URL podany katalog, to wystarczy, że w Screaming Frogu podamy dokładnie taką ścieżkę, a następnie zmienimy domyślne analizowanie całej subdomeny na subfolder.

Filtrowanie URL za pomocą wyrażeń regularnych

Jeżeli nasz serwis posiada wydzielony katalog, lub inny element powtarzalny w URL wpisów blogowych, to możemy skorzystać z wyrażeń regularnych. Potrzebujemy stałego elementu, który jest charakterystyczny dla danej sekcji – w tym przypadku artykułów blogowych.

Świetnym przykładem do zastosowania wyrażeń regularnych są zwykle sklepy stojące na CMS IdoSell. Domyślne adresy URL w sekcji blogowej mają tam dopisek, który odróżnia je od reszty serwisu. W zależności od końcowej konfiguracji może mieć to różną formę, jednak sprawdziłem dwa przykładowe sklepy stojące na tym CMS i w obu widzimy podobny dopisek:

https://foodsbyann.com/Nie-tylko-apteczka-na-wakacje-Co-jeszcze-moze-Ci-sie-przydac-na-urlopie-blog-pol-1724154430.html
https://www.denley.pl/Jak-dobrac-spodnie-do-marynarki-cinfo-pol-1434.html

Pogrubieniem zaznaczyłem fragment, który mam na myśli. Są to kolejno “-blog-pol-” oraz “-cinfo-pol-”. Jak w takim razie skonfigurować crawla, aby dostać w wynikach wyłącznie wpisy blogowe z serwisu foodsbyann.com?

W Screaming Frogu klikamy w ustawienia Configuration -> Include.

W tej zakładce możemy ustawić reguły, które będą bezwzględnie przestrzegane w crawlu. Całość działa w oparciu o regex, ale jeśli go nie znasz, to się nie przejmuj – ChatGPT świetnie sobie z nim radzi i z pewnością Ci pomoże.

Klikamy w pole tekstowe i podajemy regułę – w naszym przypadku, aby wszystkie adresy URL zawierały w sobie fragment “-blog-pol-”.

Pod polem tekstowym mamy możliwość przetestowania wybranych przez nas adresów URL, aby sprawdzić, czy reguła działa prawidłowo.

Jak widać, nasza reguła działa. Klikamy „Ok”, aby zapisać ustawienia i uruchamiamy crawl.

Crawl po mapie witryny xml

Screaming Frog ma wbudowaną możliwość wykonywania crawli na podstawie przesłanej mu mapy witryny w formacie XML. Jeżeli nasz serwis posiada dedykowaną mapę dla treści blogowych, to możemy ją tutaj wykorzystać.

W tym celu należy przejść do trybu „List”.

W tym trybie Screaming Frog ogranicza się wyłącznie do podanych przez nas adresów – nie podąża za linkami, analizując zawartość całego serwisu tak jak w trybie Spider.

Klikamy Upload, a następnie wybieramy Download XML Sitemap.

W wyskakującym oknie podajemy adres naszej mapy witryny – musimy pamiętać, aby podać mapę zawężoną do artykułów blogowych.

Po kliknięciu przycisku „Ok” Screaming Frog automatycznie pobierze adresy URL występujące w naszej sitemapie. Jeżeli adresy będą nam odpowiadać, wystarczy, że ponownie naciśniemy „Ok”, aby narzędzie wykonało crawl.

Tu jednak mała uwaga. W zależności od sposobu generowania sitemapy możemy uzyskać nieco różne efekty.

Przykładowo, Yoast SEO w swojej mapie XML dla wpisów blogowych ma również linki do zdjęć, które w nich występują. Dlatego po pobraniu adresów z linku wygenerowanego przez to narzędzie zobaczymy sporo adresów zbędnych z naszej perspektywy. Co należy zrobić w takiej sytuacji? Wystarczy, że wykluczymy je w ustawieniach.

Przechodzimy do Configuration -> Exclude. W wyskakującym oknie znajdziemy duże pole tekstowe, w którym możemy wpisywać reguły blokujące konkretne zasoby. W moim przypadku wystarczy prosta reguła:

W ten sposób możemy wykluczyć także strony paginacji, kategorii itp.

Klikamy „Ok”, aby zapisać i uruchamiamy crawl.

Elementy powtarzalne dla bloga

Gdy poprzednie metody zawiodą, zostaje nam jeszcze wykorzystanie dwóch wbudowanych w Screaming Frog funkcji:

Custom Search – służy do szybkiego przeszukiwania stron pod kątem określonych fraz lub elementów kodów.
Custom Extraction – bardziej zaawansowana wersja, dzięki której wyodrębnimy specyficzne elementy kodu HTML.

Dzięki nim możemy wyszukiwać specyficzne elementy w analizowanym serwisie. Niestety jednak to rozwiązanie nie ograniczy nam na starcie crawlu. Konieczne będzie wykonanie pełnej analizy strony i dopiero później będziemy mogli zawęzić wyniki do adresów spełniających nasze kryteria.

Na starcie jednak musimy znaleźć element w wyglądzie lub w kodzie strony, który będzie odrębny dla artykułów blogowych. Najczęściej będą to:

określone frazy np. „Blog” w Breadcrumbs,
sekcja komentarzy,
klasy i identyfikatory div np. <div class=”blog-post”>,
nazwa autora,
data publikacji,
tagi Open Graph.

Po określeniu takiego kryterium przechodzimy do odpowiedniej zakładki, czyli Configuration -> Custom i wybieramy Custom Search bądź Custom Extraction w zależności od naszych potrzeb.

W przypadku naszego bloga jako element charakterystyczny wskażemy sobie tekst „Podobne wpisy”. Taka treść występuje wyłącznie w artykułach blogowych i jest dodawana automatycznie w każdym tekście – mam więc pewność, że nie pominę żadnego artykułu.

Do tak prostego kryterium wystarczy użycie Custom Search. Jego konfiguracja wygląda następująco:

Klikam „Ok”, a następnie wykonuję crawl serwisu.

Efekty naszego Custom Search są widoczne w dedykowanej zakładce, którą musimy wybrać z listy pod polem do wpisywania URL.

Przekrojowo przeszliśmy przez główne funkcje, z których ja korzystam do zawężania crawla Screaming Froga wyłącznie do sekcji blogowej. Jeżeli znacie inne, to śmiało podzielcie się nimi w komentarzach 😉

Wojciech Tumiel

Specjalista SEO, dla którego praca stała się pasją. Zawsze na bieżąco z najnowszymi trendami, z zamiłowaniem do testowania nowych narzędzi. Ceni innowacyjność i nieustannie dąży do doskonalenia swoich umiejętności. Poza biurem, jest zapalonym fanem sportu, ze szczególnym uwzględnieniem angielskiej Premier League.

Jak przy pomocy Screaming Froga wykonać crawl wyłącznie bloga?