Jaką książkę warto przeczytać?

Jaką książkę warto przeczytać? to pytanie, które zadaje sobie wielu ludzi, którzy czytają książki. I chyba każdy, kto lubi tę rozrywkę i ma apetyt na więcej książek, niż przeczytać jest w stanie. Od dłuższego czasu korzystam z serwisu BiblioNETka do odnotowywania – wraz z oceną – książek, które czytałem, a także do wstępnej oceny książek przy zamawianiu (zwykle w książki zaopatruję się w antykwariatach online).

Serwis zna moje oceny, więc nie powinien mieć problemu ze znalezieniem kolejnych pozycji, które powinny mi odpowiadać. Tym bardziej, że prezentują się jako serwis polecający książki. Niestety, algorytm z którego korzystają jest mało skuteczny i wg mnie sprowadza się do jak użytkownik czytał i lubi Lema, to polecamy Lema. Niezupełnie o to mi chodzi, bo nie wszystkie książki danego autora są równie dobre, poza tym, warto czasem poszerzać horyzonty.

Wydawało mi się, że do skutecznego polecania, a tak naprawdę przewidywania przyszłych ocen danego użytkownika da się zaprząc statystykę, a konkretnie współczynnik korelacji. Zasada jest prosta – jeśli użytkownicy mają ocenionych n takich samych książek i oceniali je podobnie, to pewnie n+1 pozycję również ocenią podobnie. Zresztą, dawno, dawno temu robiliśmy coś podobnego ze znajomymi dla ocen filmów, tyle, że w Excelu. I jakoś tam działało, tylko próbka (i ludzi, i filmów) była niewielka.

Okazuje się, że istnieje serwis korzystający z ocen BiblioNETki, ale używający alternatywnego sposobu polecania książek. Opartego właśnie na współczynniku korelacji. Serwis nie wygląda nowocześnie, ale nie o to przecież chodzi. Na pierwszy rzut oka wygląda, że ma szansę działać dobrze – jest polecanie zwykłe, polecanie „pewniaków”, polecane książki można zawęzić gatunkami. Z listy polecanych pozycji („pewniaków”), po zawężeniu gatunków, wygląda, że robi dokładnie to, czego oczekuję – niekoniecznie poleca autorów, których znam, a w liście jest parę pozycji, o których słyszałem, że warto przeczytać i tak naprawdę są w planie.

Jednak jeszcze ciekawszą opcją jest, moim zdaniem, znajdowanie użytkowników, z którymi mamy dużą zbieżność w ocenach. Potem wystarczy zobaczyć, jakie książki ocenili wysoko i… jest spora szansa, że nam też się spodobają. Dla użytkownika, z którym mam najwyższą zbieżność sprawdza się w moim przypadku doskonale (zresztą, musi – przecież statystyka nie kłamie ;-)) – jest parę pozycji, które bardzo mi się podobały, ale zapomniałem ich dodać, a które u niego mają najwyższą ocenę.

Wady serwisu to: wygląd i zepsute linki do stron użytkowników w BiblioNETce – ta ostatnia zmieniła niedawno format linka. Zgłoszone autorowi.

A może znacie inny niż BiblioNETka (niekoniecznie polski) serwis zbierający oceny książek i mający sensowny algorytm polecania?

UPDATE: Linki zostały poprawione, skreślam.

Spam na Blox, czyli jak nie implementować CAPTCHA.

Od dłuższego czasu serwis blogowy Blox boryka się z plagą spamu. Słyszałem zapewnienia, że moderatorzy/admini walczą z tym zjawiskiem, ale wydaje mi się, że bez większych sukcesów, a nawet, że problem spamu się nasila. Jest to zjawisko dla wszystkich (poza spamerami) niekorzystne, a nierzadko na stronie głównej o pewnych porach spamy stanowią 30 i więcej procent wpisów.

Postanowiłem zerknąć na proces zakładania konta od początku. Pierwsze co rzuciło mi się w oczy, to prostota CAPTCHA. Być może parę lat temu wystarczało coś takiego, by odstraszyć spamerów, ale wojna trwa – istnieją narzędzia do automatycznego rozpoznawania nawet dość skomplikowanych CAPTCHA ze stosunkowo dużą pewnością (grubo ponad 50%). Niedawno nawet Jogger, który pozwalał właścicielowi bloga na mocne zmiany wyglądu CAPTCHA (kształt, wielkość, kolor), przy komentarzach dorzucił do niej litery obok cyfr, bo spamerzy się przebijali…

Żeby sprawdzić, czy nie przypadek, że CAPTCHA jest taka słaba, wcisnąłem F5, raz, drugi, trzeci… I okazało się, że trafiłem na powtarzające się słowa. Chwilę się pobawiłem i faktycznie, nie da się ukryć, CAPTCHA powtarza się i to – na oko – często. Postanowiłem sprawę zbadać dokładniej.

Sposób badania: uruchomienie przeglądarki, wyczyszczenie historii, w każdej serii 50 przeładowań strony (F5 lub ctrl-r), zapisanie wyników do pliku (każdy wynik w pojedynczej linii) w takiej kolejności, w jakiej się pojawiały. Żeby wykluczyć wpływ User Agent i czasu, każda seria wykonywana na różnej przeglądarce i w odstępie minimum kilkudziesięciu minut.

W pierwszej serii (przeglądarka chromium) 50 ciągów wyrazów wystąpiły 32 unikatowe ciągi, przy czym 4 wystąpiły trzykrotnie, 10 dwukrotnie, a 18 tylko raz. Dodatkowo rzuciła mi się w oczy prawdopodobna metoda powstawania wielu CAPTCHA – podział słowa na sylaby, połączone z ew. wyrzuceniem niektórych liter, a następnie wymieszanie tych slab. Przykładowo zykamu i kazymu (czyli muzyka), letefon, fontele i fonlete (czyli telefon), zetagagataze (czyli gazeta), lafiorka, fiorkala, fiorlaka (czyli kalafior).

Druga seria, kilkadziesiąt minut później na midori – 34 unikatowe ciągi, jeden wystąpił czterokrotnie, 13 dwukrotnie, 20 jednokrotnie. Wyrazy zdecydowanie powtarzają się między seriami – dla obu serii łącznie wystąpiło 46 unikatowych ciągów, 2 wystąpiły pięciokrotnie, 6 – czterokrotnie, 8 – trzykrotnie, 12 -dwukrotnie, 18 – jednokrotnie.

Ponieważ ciąg znaków pod którym można poprać losowany obrazek może być stały (z danego można korzystać wiele razy), postanowiłem uprościć sobie pobieranie i przeliczanie. Szybki skrypt, który przy pomocy wget pobiera zadaną ilość obrazków i zapisuje do kolejnych plików, a następnie sprawdzenie sum kontrolnych (md5) tychże plików. I tu ciekawostka – sumy kontrolne praktycznie się nie powtarzają. Sprawdziłem organoleptycznie i faktycznie – o ile wyrazy powtarzają się często, to praktycznie każdy plik jest binarnie inny. Czyli raczej mała ilość wyrazów raczej nie wynika z chęci cache’owania.

Dla porządku: dla 100 plików 3 miały takie same sumy kontrolne, a kolejne 5 sum występowało dwa razy. Powtórzyłem eksperyment dla 1000 plików. Pojawiło się 611 unikatowych sum kontrolnych, jedna z sum występowała 7 razy, jedna 6, sześć wystąpiło 5 razy, cztery – 20 razy, trzy – 53 razy, dwie – 188 razy i jedna – 342 razy.

Nie sprawdzałem dokładnie, czy dany wyraz w CAPTCHA koreluje z ciągiem w treści (na oko nie), ani z jaką skutecznością zadziała automatyczne rozpoznawanie, ale przy tak częstym powtarzaniu się ciągów znaków i plików nie ma to znaczenia – wygląda, że baza jest za mała, a przekształcenie zbyt proste i można spokojnie stworzyć skrypt, który porówna sumę md5 wygenerowanego pliku z arbitralną bazą.

O problemie pisałem wstępnie na forum, póki co bez odzewu. W każdym razie liczę na to, że wpis zmotywuje administratorów blox do załatania ewidentnej dziury w zakładaniu nowych kont. Obecne likwidowanie spamerskich blogów przypomina wylewanie wody z łódki, zamiast załatania w niej dziury, przez którą wody nabiera.

Oczywiście najlepsze byłoby podpięcie jakiegoś znanej, sprawdzonej implementacji CAPTCHA, zamiast wymyślania koła od nowa (i to sugestia dla tych, którzy chcą stosować tego typu rozwiązanie) ale wydaje się, że nawet z istniejącą implementacją można prosto zadziałać w taki sposób, że stanie się ona choć w części efektywna. Przede wszystkim mam na myśli zwiększenie bazy słów i ilości przekształceń.

Obok złych wiadomości są też i dobre – co prawda problem nie jest to Blox, tylko ogólnie dotyczy konto.gazeta.pl, ale – jak wynika z korespondencji z administratorami Blox – jest znany i ma być najdalej w kwietniu poprawiony. Pozostaje uzbroić się w odrobinę cierpliwości i liczyć na to, że po załataniu dziury uda się skutecznie pozbyć spamerów. W tej chwili bywa tak, że 100% wpisów na głównej stanowią spamy…