Ahrefs.com – porządki na blogu

Jakiś czas temu założyłem konto w serwisie ahrefs.com. Jest to porządnie wyglądający serwis służący SEO. Zależało mi na site audit, w szczególności na sprawdzeniu błędów linkowania. Mogłem co prawda użyć narzędzia w stylu linkchecker, ale jakoś i więcej opcji, i prostsze w użyciu. Poza tym, ahrefs.com daje narzędzia do śledzenia słów kluczowych, popularności stron itp. Stwierdziłem, że popatrzę, choć jest tego za dużo jak na moje potrzeby. Nawet w wersji darmowej.

Cieszę się, że to zrobiłem. Okazało się, że niewielka część tytułów wpisów została źle zaimportowana podczas migracji z Blox. Czyli linki w treści były po staremu, ale tytuły zostały zmienione. Chyba Blox był bardziej liberalny jeśli chodzi o znaki w tytule. A może to po prostu problem z kodowaniem pl-znaków? W każdym razie musiałem zmienić linkowanie w kilkunastu wpisach, łącznie duże kilkadziesiąt miejsc. Czasem przy okazji robiłem i inne porządki. Zdarzają się bowiem pewne zaszłości, które może niekoniecznie łatwo zauważyć, ale nie są już potrzebne. Czyli bez sensu zużywają zasoby.

Gdyby ktoś zdecydował się pójść w moje ślady, polecam wykluczyć ze skanowania strony tagów, kategorii itp. Niczego nie wnoszą, bo jedynie powielają treść z wpisów, a one służą jedynie za agregaty wpisów. Za to brak ich wykluczenia powoduje błyskawiczne zużywanie quoty. Na szczęście ahrefs.com pozwala na wykluczenie URLi ze skanowania przy pomocy wyrażenia regularnego (czyt.: regexp).

Przyznaję, że nieco się rozochociłem, więc zamierzam sprawdzić także linki wychodzące do stron zewnętrznych. A może i stary blog się załapie na porządki? Oczywiście nic nagle, raczej zabawa do kawy raz w tygodniu. Przy czym tam to już raczej w grę wchodzi zabawa z użyciem sed.

Daft Social – anti social network

Dziś dowiedziałem się o serwisie Daft Social. Przyznaję, że pomysł jest interesujący. Jest to minimalistyczne medium społecznościowe. Czy też antyspołecznościowe. Wielu rzeczy nie ma. Na przykład nie ma możliwości interakcji z treścią. Nie tylko przez innych, ale nawet sam autor nie ma możliwości ani edycji, ani usunięcia zamieszczonego wpisu. Nie ma tytułu, nie ma hashtagów. Nie ma dokładnego czasu zamieszczenia wpisu – jest tylko data. Z rzeczy które są – jest dostępny RSS.

Tworzenie wpisów czy też cała interakcja z platformą także jest minimalistyczna. Wpisy tworzymy poprzez… wysyłanie maili, a cała treść wpisu jest w jego temacie. Body maila nie ma już żadnego znaczenia. Można zamieszczać linki do stron oraz obrazki przez podanie URLi. Nadal w temacie maila.

Niestety, brakuje też security. Jeśli chodzi o zabezpieczenia, to mamy tylko losowego maila, na którego wysłanie powoduje dodanie wpisu. Czyli pojedynczy, stały sekret. Bez możliwości jego zmiany, bez 2FA. Bez możliwości przypomnienia – choć tu podanych jest parę tricków. Bez możliwości ograniczenia, z jakiego adresu email mają być przyjmowane maile.

Mimo wszystko pomysł mi się spodobał. Na tyle, że założyłem konto na Daft Social. Nie wiem jeszcze czy i jak będę korzystał. Póki co planuję wysyłać tam powiadomienia o nowych wpisach na blogu, podobne do tych, które trafiają na Blablera.

WordPress i kłopoty z cache – rozwiązanie

Od pewnego czasu na blogu występuje problem. Objawia się on tym, że niektóre wpisy nie wyświetlają się w całości, są jakby obcięte. Zauważyłem to parę dni temu, ale wtedy uznałem za jednorazowy wybryk i machnąłem ręką. Po części zwaliłem sprawę na cache, bo jego wyczyszczenie pomogło. Po głowie jako przyczyna chodziło mi też coś w stylu DDoS, który po publikacji artykułu na blogu uprawiają serwery Mastodon. I zupełnie nie miałem czasu na analizę.

Jednak dotarły do mnie sygnały (dzięki!) o tym, że sprawa się powtarza, postanowiłem przyjrzeć się bliżej. Dziś wszedłem z telefonu na ten sam wpis i… problem wystąpił ponownie. Z racji pory dnia ruch powinien być niewielki, więc warunki do diagnostyki powinny sprzyjać.

Trzy słowa o setupie

Blog jest dumnie wspierany przez WordPress, wykorzystywany jest nginx oraz php-fpm 8.2. Do tego dość intensywnie korzystam z wtyczek do WordPress. W szczególności do różnych optymalizacji i cache, co raczej nie ułatwi diagnostyki. Dużo elementów ruchomych, ingerencja w treść serwowanej występuje w wielu miejscach.

Wspomniałem o pluginie do cache jako jednym z podejrzanych. Konfiguracja Cache Enabler wygląda następująco:

Konfiguracja Cache Enabler
Screenshot konfiguracii Cache Enabler

Objawy i logi

Obcięty wpis wygląda tak:

Ucięty wpis na blogu
Screenshot uciętego wpisu

Cache był wygenerowany o 07:48 i pokrywa się to z czasem wejścia z telefonu widocznym w access.log.

drwxr-xr-x 2 www-data www-data 4096 Sep 24 07:48 pentagram-cerberus-p6361-rzut-okiem-na-bezpieczenstwo

W logu php-fpm nic specjalnego. Chwilę wcześniej widać raczej nie mogące mieć wpływu

[24-Sep-2023 07:44:23] WARNING: [pool www] seems busy (you may need to increase pm.start_servers, or pm.min/max_spare_servers), spawning 8 children, there are 1 idle, and 10 total children
[24-Sep-2023 07:44:27] WARNING: [pool www] child 20688 exited on signal 9 (SIGKILL) after 33847.200506 seconds from start
[24-Sep-2023 07:44:27] NOTICE: [pool www] child 25769 started

Diagnostyka

Problem występował na różnych przeglądarkach, także w trybie prywatnym. Zarówno na desktopie, jak i mobile. Sprawdzenie wersji zapisanej w cache pokazało, że jest ona błędna. Dobry znak, bo raczej można wykluczyć wpływ JSów. Były one podejrzane, bo wprawne oko dostrzeże, że polecenie curl przechodzi w pewnym momencie w kod źródłowy strony związany ze skryptem od statystyk Matomo.

Udało mi się ustalić, że wyczyszczenie cache pomaga, ale… tylko na pierwsze wyświetlenie. Kolejne wyświetlenia są już błędne. Sam problem występował niezależnie od obsługi JS. Czy to Firefox, czy links2, czy lynx – pierwsze wyświetlenie było poprawne, kolejne błędne.

Na pierwszy ogień poszły więc ustawienia wtyczki robiącej cache. W Minify HTML in cached pages including inline CSS and JavaScript wyłączyłem miniaturyzację CSS i JS. Nie pomogło.

Natomiast zupełne wyłączenie tej opcji jak najbardziej pomogło. Winnym okazała się zatem jedna z opcji wtyczki Cache Enabler w wersji 1.8.13. Takie tam ryzyka optymalizacji. Zgłosiłem problem na GitHub i zobaczymy co będzie dalej.

Rzuciłem jeszcze okiem na przyczynę. Prawdopodobnie chodzi o niepoprawne, zachłanne parsowanie komentarzy. Obcięcie następuje po pierwszym znaku *.
Gecko/20100101 Firefox/60.0' -H $'Accept: */*' -H $'Accept-Language: en-US,en;q=0.5'
natomiast linia bezpośrednio przed tym, co się zaczyna pojawiać, wygląda tak:
/* tracker methods like "setCustomDimension" should be called before "trackPageView" */