Jaką książkę warto przeczytać?

Jaką książkę warto przeczytać? to pytanie, które zadaje sobie wielu ludzi, którzy czytają książki. I chyba każdy, kto lubi tę rozrywkę i ma apetyt na więcej książek, niż przeczytać jest w stanie. Od dłuższego czasu korzystam z serwisu BiblioNETka do odnotowywania – wraz z oceną – książek, które czytałem, a także do wstępnej oceny książek przy zamawianiu (zwykle w książki zaopatruję się w antykwariatach online).

Serwis zna moje oceny, więc nie powinien mieć problemu ze znalezieniem kolejnych pozycji, które powinny mi odpowiadać. Tym bardziej, że prezentują się jako serwis polecający książki. Niestety, algorytm z którego korzystają jest mało skuteczny i wg mnie sprowadza się do jak użytkownik czytał i lubi Lema, to polecamy Lema. Niezupełnie o to mi chodzi, bo nie wszystkie książki danego autora są równie dobre, poza tym, warto czasem poszerzać horyzonty.

Wydawało mi się, że do skutecznego polecania, a tak naprawdę przewidywania przyszłych ocen danego użytkownika da się zaprząc statystykę, a konkretnie współczynnik korelacji. Zasada jest prosta – jeśli użytkownicy mają ocenionych n takich samych książek i oceniali je podobnie, to pewnie n+1 pozycję również ocenią podobnie. Zresztą, dawno, dawno temu robiliśmy coś podobnego ze znajomymi dla ocen filmów, tyle, że w Excelu. I jakoś tam działało, tylko próbka (i ludzi, i filmów) była niewielka.

Okazuje się, że istnieje serwis korzystający z ocen BiblioNETki, ale używający alternatywnego sposobu polecania książek. Opartego właśnie na współczynniku korelacji. Serwis nie wygląda nowocześnie, ale nie o to przecież chodzi. Na pierwszy rzut oka wygląda, że ma szansę działać dobrze – jest polecanie zwykłe, polecanie „pewniaków”, polecane książki można zawęzić gatunkami. Z listy polecanych pozycji („pewniaków”), po zawężeniu gatunków, wygląda, że robi dokładnie to, czego oczekuję – niekoniecznie poleca autorów, których znam, a w liście jest parę pozycji, o których słyszałem, że warto przeczytać i tak naprawdę są w planie.

Jednak jeszcze ciekawszą opcją jest, moim zdaniem, znajdowanie użytkowników, z którymi mamy dużą zbieżność w ocenach. Potem wystarczy zobaczyć, jakie książki ocenili wysoko i… jest spora szansa, że nam też się spodobają. Dla użytkownika, z którym mam najwyższą zbieżność sprawdza się w moim przypadku doskonale (zresztą, musi – przecież statystyka nie kłamie ;-)) – jest parę pozycji, które bardzo mi się podobały, ale zapomniałem ich dodać, a które u niego mają najwyższą ocenę.

Wady serwisu to: wygląd i zepsute linki do stron użytkowników w BiblioNETce – ta ostatnia zmieniła niedawno format linka. Zgłoszone autorowi.

A może znacie inny niż BiblioNETka (niekoniecznie polski) serwis zbierający oceny książek i mający sensowny algorytm polecania?

UPDATE: Linki zostały poprawione, skreślam.

Walka z Tor – blokowanie i atak.

Każdy medal ma dwie strony. To, że popieram prawo do anonimowości i wolności wypowiedzi nie znaczy, że nie rozumiem osób, które z różnych względów chciałyby ograniczyć dostępu do swojej sieci czy swojego serwisu użytkownikom sieci Tor. Poza tym, w znacznej mierze bawię się Torem, żeby lepiej poznać z czym wiążą się różne, zwłaszcza administracyjne aspekty sieci na sieci.

Sieć Tor z założenia ma sprzyjać anonimowości i omijaniu cenzury, a jak to wygląda w praktyce? Moim zdaniem, ma wiele słabości, chwilami sprawia po prostu broken by design. Ostatnio słychać było, o skompromitowaniu sieci Tor. Na blogu projektu Tor pojawiło się sprostowanie, wytykające błędy ale nie znaczy to, że różne słabości zupełnie nie istnieją.

Podstawową, znaną i opisaną w FAQ, słabością projektu, wynikającą z założeń projektowych jest, moim zdaniem, fakt, że publicznie dostępna, a przynajmniej trywialna do uzyskania jest lista wszystkich węzłów wyjściowych (exit node) i pośredniczących (relay node) Tora. Znacznie trudniej uzyskać listę bridge nodes, czyli węzłów służących wyłącznie do przyjęcia pierwszego połączenia od użytkownika, ale nie jest ona tak naprawdę potrzebna, by któryś duży gracz przeciwko Torowi mógł zaszkodzić sieci.

Niejawność bridge nodes wynikała z założeń projektu i z założenia miała służyć do tego, aby żaden ISP/kraj nie mógł w prosty sposób pozbawić swoich użytkowników możliwości połączenia z siecią Tor. I to zadanie spełnia przyzwoicie. Użytkownicy nadal mają możliwość uzyskania częściowych danych o bridge nodes z listy i podania ich ręcznie w swoim kliencie Tor, co w połączeniu ze zmiennymi IP bridge nodes bardzo utrudnia (o ile nie eliminuje) możliwości całkowitego zablokowania łączności z siecią Tor. Przynajmniej zablokowania opartego tylko o blokadę IP, nie analizę ruchu, ale to jakby zupełnie inny temat i skala trudności.

Natomiast mając listę węzłów końcowych, można je zablokować na wejściu do sieci czy dostępie do serwisu. Istnieją nawet serwisy, które zapewniają – mniej lub bardziej aktualne – gotowce. Ten serwis na przykład udostępnia aktualizowaną co godzinę blacklistę opartą na DNS z podziałem na węzły wychodzące i zwykłe.

Ale nie jest to jedyna metoda walki serwisów czy ISP z Torem. W praktyce mało kto, przynajmniej w naszym kraju, udostępnia węzeł wychodzący. Przyczyna jest prosta – dość szybko może skończyć się to (i kończy, nie mówię z własnego doświadczenia, ale słyszałem z pierwszej ręki o takich przypadkach) wizytą policji z powodu nadużyć z danego IP. Węzeł pośredniczący, o ile nie ma uruchomionej tzw. ukrytej usługi (hidden service) nie przechowuje ani nie udostępnia żadnych danych, więc jego uruchomienie w domu nie pociąga za sobą żadnych problemów (poza zużyciem części pasma).

Przynajmniej teoretycznie. W praktyce bowiem serwery serwisów nie lubiących Tora mogą sprawdzać nie tylko, czy użytkownik nie łączy się z IP na którym uruchomiony jest węzeł wychodzący, ale także czy połączenie nie jest z IP na którym uruchomiony jest węzeł pośredniczący i… także odmawiać dostępu. Przykładem jest choćby powyższy serwis z listami. Łącząc się z IP, na którym uruchomiony jest relay node zobaczymy:

Forbidden – TOR Node / Anonymous Proxy I’m sorry, but I really don’t see why anyone would need to use a TOR node or Anonymous Proxy server to look at my site. So i’m afraid you can’t look. Stop running TOR / using an anonymous proxy and you can view my site.

Przy względnie częstej aktualizacji listy węzłów (choćby wspomniana godzina), rozwiązanie takie praktycznie nie generuje skutków ubocznych dla serwisu, który ją wykorzystuje i minimalizuje ryzyko false positives, nawet przy zmiennym IP węzłów. Zakładając oczywiście, że lista jest prawidłowa i kompletna.

Zresztą, sami twórcy projektu Tor dają o to, żeby administratorzy którzy muszą blokować węzły wyjściowe Tora, mogli robić to w prosty sposób. Banowanie użytkowników sieci Tor także ma swój wpis w FAQ. Uprzykrzanie życia właścicielom relay nodes to już raczej otwarta wojna, której chcą uniknąć.

Skoro o otwartej wojnie mowa, gdyby jakieś państwo chciało unieruchomić sieć Tor, to obok blokowania bridge nodes może sięgnąć po (D)DoS (w sumie wystarczy zwykły flood) na – niekoniecznie szybkie – węzły pośredniczące. Węzły wyjściowe często są na dedykowanych maszynach i łączach, pośredniczące (tylko pośredniczące, każdy wyjściowy jest jednocześnie pośredniczącym) – niekoniecznie. Zresztą ponownie – istnieje strona podająca status sieci Tor, a na niej szczegółowe informacje o węzłach – rola, tzw. flagi, system, ilość przesyłanego ruchu… Zapewne można na jej podstawie szacować, jakie zasoby potrzebne są do przeprowadzenia ataku.

Przy okazji takie spostrzeżenie – ludzie z projektu Tor naprawdę wydają się skupieni na etyczny zastosowaniach i zapewnieniu anonimowości i wolności ludziom, którzy naprawdę tego potrzebują. I mocno liczą, że administratorzy serwisów to zrozumieją i nie będą w Torze widzieć wyłącznie narzędzia abuserów. W ciągu kilkudziesięciominutowej rozmowy, która się wywiązała na IRC przy okazji wspomnienia na temat tworzenia tego wpisu zostałem odesłany do paru prac naukowych (nie czytałem jeszcze, bo niezupełnie ten temat, podlinkowane poniżej). Atak totalny na tak szczytne przedsięwzięcie chyba nie bardzo mieści im się w głowie, natomiast zaprzątnięci są zapewnieniem anonimowości użytkownikom i pracują nad ulepszeniem możliwości łatwego i pewnego rozdzielenia węzłów wyjściowych od pośredniczących dla tych, którzy muszą blokować dostęp z sieci Tor.

Stąd moje wrażenie o broken by design może być przesadzone lub zwyczajnie mylne – zwyczajnie nie do tego i nie przy takich zastosowaniach było to projektowane… Generalnie Tor ma warstwy – z pozoru wygląda na bardzo prosty twór, ale im dalej się wgłębiać, tym ciekawsze nowe rzeczy się pojawiają. Przyznam, że sam nie grokuję Tora w pełni, stąd ten wpis, będący poniekąd próbą uporządkowania paru faktów.

Linki (które kiedyś mam nadzieję przeczytam, niekoniecznie o Torze):

Szybki rzut oka na polską chmurę czyli test e24cloud beta.

Jakiś czas temu serwis e24cloud, czyli polski hosting pod modnym szyldem chmury w wydaniu Beyond.pl, wszedł w fazę beta i publicznych testów, czyli praktycznie każdy chętny może – za darmo – pobawić się modną chmurą. Aktualnie firma rozdaje zaproszenia do testów o równowartości 200 zł, aby dostać kod należy postępować ze wskazówkami ze strony stwórz chmurę, czyli skorzystać z aplikacji na Facebooku.

Dłuższy wpis w trakcie tworzenia, a tymczasem szybki rzut oka na wady i zalety oferowanego testu (nie chciałbym, żeby było to traktowane jako test finalnej usługi, bo może się zmienić, poza tym parę kryteriów wybitnie testowych).

Wady:

  • brak IPv6 w domyślnej instalacji, brak możliwości wykupienia/wyklikania w panelu
  • przy pierwszym wyborze tylko 5 OS, w tym stary Debian (Lenny)
  • przy pierwszym wyborze konieczność wybrania 2 rdzeni
  • domyślne hasło roota tylko 8 znaków [a-zA-Z0-9]
  • 0,18 zł przy nieaktywnej (wstrzymanej) maszynie (2 CPU), 0,34 zł przy działającej
  • nie można dorzucić dodatkowych zasobów (CPU/RAM) do istniejącej maszyny
  • liczba CPU i RAM sztywno powiązane (każdy CPU to 2 GB RAM)
  • spora ilość błędów w panelu i słaba stabilność (nawet jak na wersję beta)
  • długi czas reakcji na zgłoszenie ticketa

Zalety:

  • maszyna szybko się generuje
  • wystarczający wybór presetów – siedem, w tym nowy Debian (Squeeze)
  • dostępny spory zakres sprzętu – 1-48 CPU i 2-96 RAM, dodatkowy HDD do 5 TB
  • 25 dni to wystarczający czas na przetestowanie
  • dobra wydajność (CPU)

Zabawa trwa, wkrótce można się spodziewać dłuższego i pełniejszego opisu testowanej usługi. Jeśli ktoś lubi się bawić, to pewnie warto skorzystać z darmowego testu, chociaż szału póki co nie ma.

UPDATE: W końcu otrzymałem odpowiedź na ticketa dotyczącego wyłączania się maszyny – wynika z błędu w panelu. Dodaję stosowny punkt, bo prawie 48h na prostą informację, że problem wynika z panelu to sporo. I usuwam niską stabilność usługi, bo wynika z błędów w panelu, nie w samej usłudze. Wiem, niby nieważne, czemu przestaje działać, ale jakoś wypada to oddzielić.

UPDATE: Widzę, że nadal jest trochę wejść z wyszukiwarek w poszukiwaniu informacji. Powyższe dane są stare i dotyczą wersji beta. Aktualna usługa jest zmieniona pod niektórymi względami. Aktualizacji danych lub nowego wpisu, chwilowo nie będzie, bo w tej chwili byłbym nieobiektywny.