Jak zrobić kuku spamerowi?

Jak wielu innych ludzi, darzę spamerów czystym i płomiennym uczuciem. Jakiś czas temu popełniłem automat do wykrywania spamu na Blox. W zasadzie, to tych skryptów jest kilka i raczej dane zbierają się „na kiedyś”, niż działa to produkcyjnie, ale czasem coś tam podeślę do blokowania. Niemniej, nie jest to pełny automat.

Jeśli chodzi o pocztę, to nie jest u mnie ze spamem źle. Łącznie na wszystkie konta dostaję jakieś małe pojedyncze sztuki dziennie. Część odsiewają dostawcy poczty, przytłaczającą większość tych nielicznych, które przejdą oznacza Thunderbird.

Dodatkowo, jeśli już coś do mnie dotrze, to zwykle trafia na Spamcopa (polecam zarejestrowanie się). Roboty z tym tyle, co kliknięcie Forward i linka w mailu, więc niewiele, a powiadamiane są wszystkie powiązane abuse. Polecam rejestrację. Czasem nawet odpiszą, że zablokowali (i to niekoniecznie nadawcę, bo potrafią reagować także właściciele domen/hostingów na których znajduje się „reklamowana” strona. Tak czy inaczej, o ile nie zadziała to pewnie na spam o niebieskich pastylkach wysyłanych z botnetów (ale liczę, że to odpada na etapie dostawcy poczty, zresztą mało tego typu dociera do mnie), to działa[1] na byznesmenów wysyłających zapytania o możliwość wysłania oferty handlowej do adresatów z baz pozyskanych z ogólnodostępnych źródeł. Znaczy, tłumacząc na polski: na spamerów wysyłających spam, bo (polskie) prawo prawem, ale o tym, czy wiadomość była zamówiona decyduje jednak odbiorca.

Niedawno, podczas szukania rozwiązań antyspamowych trafiłem na ciekawą stronę Email Labirynth, która generuje losowe adresy email w celu zaśmiecenia baz danych harvesterom, a w konsekwencji spamerom. Czyli po pierwsze stracą czas zbierając te adresy, po drugie stracą czas wysyłając maile na nieistniejące adresy, a po trzecie jest spora szansa, że dzięki takim wysyłkom trafią na RBLe. Nie jestem przekonany o skuteczności, ale spróbować IMO nie zaszkodzi. Sceptykom twierdzącym, że spamerzy nie mogą być aż tak głupi od razu mówię, że nie tylko mogą, ale są. Może nie wszyscy, ale większość. No i zwykle mają słabe automaty, a nadzór ludzki kosztuje.

W każdym razie powyższe rozwiązanie ma IMO kilka wad:

  • Brak spamtrapa na każdej stronie. IMHO na każdej(?) stronie wśród generowanych maili powinien być także spamtrap w celu automatycznego zgłaszania IP korzystających z harvestowanych adresów email do abuse/RBLi.
  • Stały adres strony. Wystarczy szczątkowa inteligencja, by nie harvestować tam adresów email.
  • W pełni losowe loginy. Trochę wada, trochę zaleta. W każdym razie wyglądają mało naturalnie i przy odrobinie wysiłku można je odsiać.
  • Brak lokalizacji. Wiadomo, że spamerzy celują z niektórymi produktami raczej w określone grupy klientów, np. klientów z Polski. Dane z ww. strony zdecydowanie nie wyglądają na bazę polskich klientów email.

Koniec końców postanowiłem zrobić swoje rozwiązanie realizujące podobny cel (oczywiście Perl). Na razie mam opracowane częściowe rozwiązanie[2] dla dwóch ostatnich punktów. Punkt drugi też będzie rozwiązany, bo zamierzam opublikować gotowca, którego każdy będzie mógł podpiąć na swojej stronie.

Ponieważ pewnie trochę czasu będę miał dopiero w przyszły weekend, liczę do tego czasu na uwagi dot. sensowności i ew. innych funkcjonalności.

[1] Działa, znam trochę środowisko hostingowe. Przyzwoite hostingi nie przepadają za wysyłającymi spam do zaśmieconych baz adresów email, a z tego co wiem w polskich firmach hostingowych abuse raczej działa.

[2] Jak dam sobie na luz z perfekcjonizmem, to pewnie uznam je za docelowe, przynajmniej w pierwszej wersji.

UPDATE: No i uruchomiłem. Póki co wersja testowa karmnika z adresami email wisi tu.

Okresowe statystyki bloga

Nawiązując do tradycji, kolejna odsłona statystyk. Poprzednie statystyki są sprzed ponad roku, więc czas najwyższy popatrzeć i odnotować, co się zmieniło.

Przede wszystkim zmiana lidera w gronie systemów operacyjnych. Jest nim Windows 7 z 33,14% (poprzednio drugie miejsce). Na drugim miejscu ówczesny lider, czyli Windows XP z 30%. Vista notuje spadek do 7,3%. Łącznie systemy Windows spadek do 71%. Linux się umacnia do 23,6%, Mac OS X również delikatny wzrost, do 2,3%.

Jeśli chodzi o przeglądarki to praktycznie bez zmian. Firefox kosmetyczny wzrost do 51%, Chrome również delikatnie do góry 25%. Opera powoli traci użytkowników – korzystało z niej 9,6% odwiedzających. MSIE 8.0 jest najpopularniejszą wersją przeglądarki MS z 4,5%, łącznie IE łącznie to 8,7%, czyli spadek.

Nadal spada udział rozdzielczości 1280×800 i 1280×1024, ale nadal są one z 26% najpopularniejsze. 1366×768 to już 15,5%. Szybko zanika 1024×768 – stanowi już tylko 6,2% czyli spadek aż o 6 punktów procentowych. Biorąc pod uwagę, że wszystkie statystyki liczone są od początku zliczania, to praktycznie nikt nie korzysta już z tej rozdzielczości. Widać, że gwałtownie rośnie popularność 1920×1080 i 1680×1050 – mają po 4,2% każda.

Jeśli chodzi o pagerank to bez zmian, nadal 4 tutaj. Nadal 3 na starym blogu. Na blogu muzycznym, mocno zaniedbanym aktualnie N/A.

Reklamy Google – jest nieco gorzej niż było, ale bez wielkich zmian. Pojawiła się możliwość kupienia reklamy bezpośrednio na blogu i w sumie dała większy przychód, niż AdSense. Tyle, że reklamy Google są bezobsługowe. Tak czy inaczej, chyba mam wrażenie, że wyszedłbym lepiej na zbieraniu kaucjowanych butelek, które opróżniam. A opróżniam na tyle rzadko, że nie chce mi się ich nosić na wymianę. BTW taki paradoks – piwo w butelce z kaucją jest nadal tańsze, niż w puszce. I wg niektórych (się zaliczam) smaczniejsze.

Największa zmiana na blogu? Uruchomienie statystyk Piwik Żeby nie mieszać, powyższe nadal wg stat4u, zresztą nadal trochę mało danych…

Statystyki bloga, zmiana licencji.

Pora na przegląd parametrów bloga, który okresowo robię, żeby móc porównać zmiany w czasie. Na początek tradycyjnie systemy operacyjne: Windows XP 34,2%, Windows 7 – 30,4%, Vista – 8,6% czyli łącznie 73%. Linux spadek do 22%, Mac OS X bez zmian 2,2%. Tradycyjnie efekt większego udziału wejść z wyszukiwarki. Znaczne umocnienie się Windows 7, lekki spadek XP.

Przeglądarki praktycznie bez zmian: Firefox 50%, Chrome 23,4%, Opera trzyma ma wiernych fanów we względnie stałej ilości 10,7%. IE w różnych wersjach 10%, przy czym 5,6% to IE 8.

W przypadku rozdzielczości nadal dominują 1280×800 lub 1280×1024 z 30% (nadal spadek), przy czym na drugiej pozycji pojawia się 1366×768 z 13,7% udziału. Mocne jest też nadal 1024×768 – 12,2%.

Znowu zmiany w pagerank – tym razem spadek tego bloga na 4, stary blog i blog muzyczny mają od dłuższego czasu 3.

Reklamy od Google mają się dobrze – bez wysiłku (w zasadzie: totalnie bezobsługowo) i bez rewelacji, minimalnie tylko gorzej od AdTaily, które wymagało jednak więcej zaangażowania, więc sobie chwalę.

Zmianie ulega licencja bloga (dead link), a dokładniej treści wpisów na nim. Taki efekt P.I.W.O. 2012, a dokładnie prezentacji i rozmowy z ryśkiem (thx!). Wspominałem, że było inspirująco? 😉 Stanęło na  CC BY-SA, która jest IMO najbliższym odpowiednikiem GPL, z małymi dodatkowymi wymaganiami co do informacji o pochodzeniu treści. Nie jest prosto, ładnie i składnie napisać wymagania, a pech chciał, że jak widziałem u kogoś coś podobnego ładnie zrobionego, to nie mogłem znaleźć, jak było potrzebne. Oczywiście znalazłem wkrótce po tym, jak skończyłem. ;-/ Ale i tak się przydało… Gdyby ktoś miał uwagi i propozycje poprawy – chętnie usłyszę. Wkrótce dodam wersję angielską wymagań.

Myślałem jeszcze o CC BY-ND oraz o czym z NC, ale przekonało mnie, że skoro ktoś będzie potrafił zrobić z tego pieniądze, jak ja nie umiem, to chwała mu za to (info o autorze i tak będzie). No i żyjemy w świecie pełnym reklam, do których CC ma dziwne podejście. Z kolei ND jest IMO nieporozumieniem w świecie wolnego oprogramowania. Cały dowcip w tym, żeby ktoś mógł tłumaczyć, poprawiać i czerpać. Teraz mogę z czystym sumieniem męczyć RMS o źdźbło w jego oku. 😉

Nie, nie mam złudzeń co do jakości tekstów. Pewnie zwykle nikt ich nie wykorzysta. Tym bardziej nie widzę powodu, żeby się nie dzielić.