Jakiś czas temu założyłem konto w serwisie ahrefs.com. Jest to porządnie wyglądający serwis służący SEO. Zależało mi na site audit, w szczególności na sprawdzeniu błędów linkowania. Mogłem co prawda użyć narzędzia w stylu linkchecker, ale jakoś i więcej opcji, i prostsze w użyciu. Poza tym, ahrefs.com daje narzędzia do śledzenia słów kluczowych, popularności stron itp. Stwierdziłem, że popatrzę, choć jest tego za dużo jak na moje potrzeby. Nawet w wersji darmowej.
Cieszę się, że to zrobiłem. Okazało się, że niewielka część tytułów wpisów została źle zaimportowana podczas migracji z Blox. Czyli linki w treści były po staremu, ale tytuły zostały zmienione. Chyba Blox był bardziej liberalny jeśli chodzi o znaki w tytule. A może to po prostu problem z kodowaniem pl-znaków? W każdym razie musiałem zmienić linkowanie w kilkunastu wpisach, łącznie duże kilkadziesiąt miejsc. Czasem przy okazji robiłem i inne porządki. Zdarzają się bowiem pewne zaszłości, które może niekoniecznie łatwo zauważyć, ale nie są już potrzebne. Czyli bez sensu zużywają zasoby.
Gdyby ktoś zdecydował się pójść w moje ślady, polecam wykluczyć ze skanowania strony tagów, kategorii itp. Niczego nie wnoszą, bo jedynie powielają treść z wpisów, a one służą jedynie za agregaty wpisów. Za to brak ich wykluczenia powoduje błyskawiczne zużywanie quoty. Na szczęście ahrefs.com pozwala na wykluczenie URLi ze skanowania przy pomocy wyrażenia regularnego (czyt.: regexp).
Przyznaję, że nieco się rozochociłem, więc zamierzam sprawdzić także linki wychodzące do stron zewnętrznych. A może i stary blog się załapie na porządki? Oczywiście nic nagle, raczej zabawa do kawy raz w tygodniu. Przy czym tam to już raczej w grę wchodzi zabawa z użyciem sed.
Do wyszukiwania zmarłych linków świetnie nadaje się to narzędzie:
https://bernard.app/
Pobawiłem się chwilę i:
1. Działa wyłącznie dla URLi zawierających domenę lub subdomenę. Uruchomiłem na swoim blogu i otrzymałem:
Error!
Only full domains and subdomains are supported.
2. Wygląda prosto i ładnie, co może być zaletą przy małej ilości problemów, ale w przypadku większej ilości czy większych stron będzie wadą. Uruchomiłem dla strony głównej i… zaczął skanować „w dół”, czyli blogi. Sądząc po danych – całego, wszystkie linki. Po czym niespodziewanie przestał po równych 2500 linków, co wygląda na sztywny limit, bo na pewno nie są to wszystkie linki. I teraz w sumie nie wiem co zostało przeskanowane, a co nie.
W każdym razie dzięki za namiar. To beta, więc może kiedyś… No i do mniejszych stron może się przydać.