Zmiany w czasie

W odpowiedzi na inicjatywę obywateli Komisja Europejska przeprowadza ankietę dotyczącą ew. zmian w zmianach czasu z letniego na zimowy. W skrócie – każdy obywatel UE może się wypowiedzieć, czy woli obecny model, czy pozostanie przez cały rok przy jednym czasie. A jeśli pozostanie przy jednym, to przy którym. Zachęcam do głosowania – ankieta trwa do 16. sierpnia.

Źródło: https://pixabay.com/en/business-time-clock-clocks-257911/

Nie jest to pierwsza próba jakiejś tam reformy zmian czasu, zupełnie niedawno czytałem wpis, który niechcący przybliżył mi ideę Swatch Internet Time. Temu projektowi nie wróżę akurat sukcesu z powodu przywiązania do firmy, ale niesie on jeszcze jedną zaletę – likwidację stref czasowych. Oznacza to, że podanie czasu wg SIT jest jednoznaczne dla całego świata; czy to Tokio, Nowy Jork, czy Warszawa @833 oznacza ten sam moment.

Osobiście wolałbym, zamiast zmian czasu po prostu jeden czas na całym świecie, ale w formie tradycyjnej. Pewnie UTC. Czemu? Prostota, odpada przeliczanie, a coraz więcej wydarzeń ma charakter globalny. Notowania akcji, transmisje na żywo wydarzeń kulturalnych i sportowych. Wydaje mi się, że strefy miały sens, gdy większość wydarzeń była lokalna, ograniczona powiedzmy do jednego kraju, a to się nieco zmieniło.

Tak czy inaczej, uważam rezygnację ze zmiany czasu za krok w dobrym kierunku.

UPDATE: Są wyniki. 84% ludzi, którzy wzięli udział, opowiedziało się za zniesieniem zmiany czasu. Szczegóły tutaj.

SMTP IP reputation checker

We wpisie o sprawdzaniu obecności serwera pocztowego na RBL odgrażałem się, że pojawi się skrypt do monitorowania reputacji IP serwera pocztowego. No i stało się: skrypt SMTP IP reputation checker do sprawdzania reputacji IP jest na GitHubie.

Na razie bardzo podstawowa funkcjonalność – sprawdza reputację IP tylko w jednym źródle, ale… na początek powinien wystarczyć. Lepszy rydz, niż nic.

Podobnie jak poprzednik służący do sprawdzania wystąpień IP na RBL zaprojektowany do łatwej integracji np. z Zabbiksem.

MauiBot – analiza zachowania bota

Pewnego dnia patrząc w logi serwera WWW zauważyłem sporą aktywność bota identyfikującego się jako MauiBot. Dokładnie:

MauiBot (crawler.feedback+dc@gmail.com)

Z zapałem crawlował labirynt dla botów. W User Agent nie było zazwyczaj obecnego URLa, żeby poczytać, co to za wynalazek, więc uruchomiłem wyszukiwarkę. Szybko udało mi się ustalić, że to bad bot, działający z chmury Amazonu (AWS). A nawet , że są reguły dla nginx do blokowania ruchu od niego.

Na początek parę znalezionych linków:

Wygląda, że bot pojawił się w marcu tego roku, czyli jest dość świeży. Wygląda też, że potrafi spowodować trochę problemów, przynajmniej na shared hostingach i/lub stronach słabo zoptymalizowanych.

Dokładniejszych informacji nie ma, więc postanowiłem poobserwować zwyczaje bota na własną rękę.

Wygląda, że 25 lipca ok. 1:20 trafił na moją stronę domową i zaczął podążać za kolejnymi linkami. Korzystał z IP 54.237.208.52, nie dało się obserwować opisywanego w niektórych miejscach wykonywania requestów grupami po 4-8 co 30 sekund. Wykonywał między 100 a 250 requestów na godzinę.

Tego samego dnia ok. 20:40 zmienił IP na 54.87.252.55 i… zaczął wszystko od początku. 26 lipca około 1:20 skończyły się requesty dotyczące blogów, pozostały tylko dotyczące wypasania botów.  W tym momencie intensywność crawlowania znacząco wzrosła – między 1600 a 2100 requestów na godzinę. Daje się też zauważyć grupowanie requestów, choć wygląda ono nieco inaczej niż w opisywanych w sieci przypadkach – 3-4 requesty co 5-6 sekund. Być może każdy wątek dla danej ścieżki wykonuje 4 requesty co 30 sekund.

Zaczynam też obserwować spadek liczby zapytań na godzinę. 26 lipca o godzinie 7 było 1500 requestów. Następnie systematycznie z godziny na godzinę spada do 900 requestów o 19 i 550 o godzinie 5 następnego dnia. O godzinie 19 27 lipca jest już tylko 340 requestów, a o godzinie 9 28 lipca już tylko 250 zapytań na godzinę.

W tym momencie zaczynam eksperymentować. Po pierwsze dodaję przed linkami z parametrami i za nimi linki z inną ścieżką, ale również prowadzące do labiryntu. Bot natychmiast za nimi podąża, najwyraźniej dokładając nowe wątki/procesy, bo liczba requestów wzrasta do ponad 700/h, przy czym liczba do bazowego powoli spada do ok. 200/h.

31 lipca liczba requestów to ok. 150/h. Podstawiam linka do labiryntu ale w innej domenie, ale MauiBot ignoruje tego linka. Trochę zbyt długo zwlekałem z analizą, obecnie bot reaguje bardzo powoli, więc publikuję teraz, a kolejne obserwacje pojawią się wkrótce, jako aktualizacja tego wpisu.

UPDATE

Aby sprawdzić, czy pomija ze względu na inną domenę, czy w ogóle przestał, dołożyłem kolejnego linka, tym razem w crawlowanej dotychczas domenie. Podążył za nim, a liczba requstów wzrosła do ok. 210/h. Podobnie bot podążył za URLem w tej samej domenie po podaniu pełnej ścieżki zamiast względnej, używanej wszędzie dotychczas.

Wygląda na to, że odwiedzone URLe są zapamiętywane. Bot nie wrócił do początkowego indeksu, mimo podanie osobnego linka w odwiedzonej już ścieżce.

Aby sprawdzić, jak sobie radzi z forkowaniem i jak to wpływ na ilość requestów, wysłałem go w dziewięć kolejnych, niezależnych miejsc.

Ostatecznie przestałem go obserwować na bieżąco przez cztery tygodnie i w zasadzie czekałem tylko, kiedy skończy pobierać i czy np. nie zmieni IP. Nie zmienił, za to pobierać przestał 20 sierpnia 2018. Tempo pobierania w ostatnich godzinach to ok. 335/h, pobierał ze wszystkich stron w grupach nie po 4, a po 8 requestów.