Benchmark DNS cache – problemy.

Jakiś czas temu zainteresowałem się, głównie za sprawą prezentacji Infoblox na 9 PLNOG nt. DNS, tematem DNS cache i jego wydajności. Nie jest to zupełnie nowa sprawa, bo kiedyś otarłem się o problem wydajności DNS cache (albo raczej sprzętu, na którym działało to jako jedna z wielu usług…). Skończyło się tak, że mały i lekki dnsmasq jest za mały dla większej osiedlówki, choć nadal fajny w rozwiązaniach domowych.

Pierwsze skojarzenie z DNS to oczywiście bind, którego „wszyscy znają, wszyscy używają i nadaje się do wszystkiego”. Autorzy unbound przekonują, że to niekoniecznie dobre podejście, więc – zachęcony tym, co znalazłem w sieci – postanowiłem przetestować wydajność bind vs. unbound.

Nie ma lekko. W Debianie nie znajdziemy gotowego pakietu z narzędziem do testowania wydajności serwera DNS. W ogóle nie ma (nie znalazłem) wydajnego narzędzia do tego. Jest queryperf, dostępny w źródłach bind (do samodzielnej kompilacji), ale do wydajności mu daleko – często obciąża maszynę porównywalnie, jeśli nie bardziej, niż sam testowany program. W prezentacji (http://www.infoblox.nl/content/dam/infoblox/documents/solution-notes/infoblox-note-ib-2000-performance-test.pdf – dead link) znalazłem skrypt:

#!/b in/sh
SECS=5
INPUT=qp.forward.master.cached
SERVER=10.34.31.2
# SECS is number of seconds to run test
# INPUT is input file
# SERVER is server IP
queryperf -s $SERVER -d $INPUT -l $SECS > out1 2>&1 &
queryperf -s $SERVER -d $INPUT -l $SECS > out2 2>&1 &
queryperf -s $SERVER -d $INPUT -l $SECS > out3 2>&1 &
queryperf -s $SERVER -d $INPUT -l $SECS > out4 2>&1 &
queryperf -s $SERVER -d $INPUT -l $SECS > out5 2>&1 &
queryperf -s $SERVER -d $INPUT -l $SECS > out6 2>&1 &
wait
grep ‘Queries per’ out? | awk ‘BEGIN { sum=0;}{ sum += $5;}
END {printf(“Total: %.1f qps\n”, sum);}’


Szybkie zapytanie na kanale IRC i… jedna osoba zgłasza, że przesiadła się na unbound i jest zadowolona; sugestii co do oprogramowania testującego brak, za to pojawia się koncert życzeń: jak już to jeszcze przetestować pnds_recursor, djbdns… i może bind10, bo podobno poprawiona wydajność. Robi się tego sporo, bo i lab z paroma maszynami wysyłającymi zapytania by się przydał, i testowanych demonów większa ilość. A miało być szybkie i proste zagadnienie na 1-2h.

Do tego problem danych testowych – każdy ma u siebie nieco inną charakterystykę ruchu, wyniki mogą się różnić dość znacznie, więc skąd wziąć dane? Jasne, można benchmarkować na podstawie własnych, rzeczywistych danych i będzie to najbliższe optymalizacji w danym przypadku, ale czy wartościowe dla innych? No i na pewno nie opublikuję takiego testowego zestawu danych. Jest też problem dostosowania konfiguracji do konkretnej platformy, na której uruchamiane będzie oprogramowanie (np. ilość wątków). Domyślny konfig jest różny dla różnych demonów, przy czym domyślny debianowy dla unbound ma się nijak do maszyny wieloprocesorowej. No i przydał by się tuning samego systemu pod kątem wydajności sieci, bo default w Linuksie jest raczej słaby.

Więcej pytań, niż odpowiedzi. Stanęło na tym, że pełnego testu nie zrobiłem. Za to puściłem szybki test na jakimś małym zestawie danych (kilkanaście wpisów). W ww. skrypcie zmieniłem liczbę procesów na 4, czas na 60 sekund i testowałem na laptopie (Intel Core i5). Nie do końca optymalnie, ale cóż, lepiej, niż pojedynczy proces. Poprzestałem więc na tym pseudobenchmarku na domyślnym konfigu – zabawa w optymalizację to grubsza sprawa, jeśli ma być zrobiona porządnie. Unbound wypadł bardzo dobrze. Mimo, że działał tylko na pojedynczym rdzeniu, wypadł dwukrotnie lepiej, niż bind.

Nie ukrywam, że chętnie poznam sugestie dot. danych testowych (takich, które można opublikować) i ew. doświadczeń z benchmarkowaniem DNS (cache). Jeśli się zbiorę i zrobię benchmark, to dane i wyniki będą opublikowane. Na razie stanęło na tym, że na moich dekstopach zmieniłem bind na unbound (tak, mam lokalne cache na desktopach od jakiegoś czasu, raczej eksperyment, kiedyś napiszę na ten temat).

Wolne repozytoria dla Androida czyli alternatywa dla Google Play.

Model sprzedaży aplikacji przez Google mi się niezbyt podoba: sporo mało użytecznych aplikacji, wszechobecne aplikacje płatne i z reklamami. Oczywiście, niby jest system ocen, ale nadal ciężko wybrać (z dwóch wysoko ocenianych czytników ebooków jeden był totalnie OKDR). Niby jest filtrowanie płatne/bezpłatne, ale już filtra na wersję bez reklam nie ma. Ogólnie, żeby coś znaleźć fajnego, trzeba trochę prób i błędów. Niewiele jest dobrych i jednocześnie darmowych aplikacji. TBH wolałbym trial pełnej wersji, albo po prostu aplikacje, które w prosty sposób umożliwiają przekazanie pieniędzy np. przy pomocy Flattr. Na ostatnim P.I.W.O pytałem o alternatywne repozytoria pakietów i nikt nie znał takowego.

Dołóżmy do tego fakt, że twórca aplikacji sprzedawanej w Google Play dostaje w przypadku zakupu nasze dokładne dane i robi się niezbyt ciekawie. Gdyby ktoś chciał repozytorium zorientowane bardziej na wolność, prywatność i z wolnym oprogramowaniem, to informuję, że takowe istnieje. Dowiedziałem się o nim, gdy ponarzekałem na Androida – zostałem odesłany do projektu Replicant, czyli całkowicie wolnej alternatywy dla Androida.

Mój tablet (Go Clever A73) nie jest wspierany (ogólnie mało urządzeń jest), ale za to dowiedziałem się o tytułowym wolnym repozytorium dla Androida, czyli f-droid.org, czyli wspomnianej alternatywie dla Google market AKA Play. Zawiera tylko wolne oprogramowanie (preferowany sposób dystrybucji to dostarczenie kodu źródłowego do utrzymujących f-droid.org, a następnie skompilowanie przez nich). Można pobierać aplikacje bezpośrednio, można skorzystać z managera. Pierwsze wrażenie przy instalacji pakietów z jego pomocą – znacznie lżejszy od aplikacji obsługującej Play. Aplikacje szybciej się pobierają i instalują. I mniej kolorowo – niestety, dostępne są tylko opisy aplikacji, nie ma screenshotów. Wada, bo jednak kupujemy oczami.

Część aplikacji jest dostępnych w Play (co ciekawe, musiały być wysoko ocenione, skoro je zainstalowałem). Może się zdarzyć, że przed instalacją wersji z f-droid.org trzeba będzie odinstalować wersję z Google Play. Większość aplikacji jest użyteczna i po prostu działa. Trzeba jednak zwrócić uwagę na opisy i funkcjonalności, bo czasem zdarza się, że aplikacja dostępna w repozytorium f-droid jest mniej funkcjonalna, niż jej odpowiednik z Google Play – wynik pozbycia się niewolnych bibliotek czy źródeł danych.

Inną ciekawą funkcją są tzw. antyfunkcje. W managerze pakietów można określić, czy chcemy dopuścić instalację aplikacji zawierających reklamy, namierzających położenie lub raportujących działania (kiedyś to się spyware nazywało…), wspierających płatne dodatki, wspierających płatne usługi sieciowe czy w końcu zależne od innych, płatnych aplikacji. Domyślnie wyszukuje tylko wśród wolnych aplikacji, ale można wyłączyć. Jeśli komuś zależy, to może podążać ścieżką GNU i RMS, ale nie ma przymusu.

W przeciwieństwie do Play, f-droid.org pozwala na wybór wersji instalowanej aplikacji. Czyli jeśli najnowsza np. nie działa na naszym sprzęcie, albo zwyczajnie się nam nie podobają zmiany wprowadzone przez autora, to nie ma przymusu i nadal można zainstalować wersję starszą.

Nie wiem jak ocenią f-droid.org typowi użytkownicy, ale z linuksiarskiej perspektywy – warto się zainteresować tym alternatywnym repozytorium pakietów dla systemu Android. Oczywiście z obu źródeł pakietów można korzystać jednocześnie.

PS. Opisuję, bo mało popularne, choć było opisywane po polsku dwa razy.

Retencja danych – jak logować ruch.

Jakiś czas temu pisałem o retencji danych, natomiast nigdy nie napisałem jak albo czym logować dane o ruchu sieciowym na Linuksie. Niedawno otrzymałem spam o treści „XXX posiada w swojej ofercie gotowe rozwiązanie do zbierania, przechowywania i analizowania ruchu sieciowego zgodnych z ustawą o retencji danych”. Cena dla małych ISP niewąska, bo za coś, co obsłuży ruch do 1 Gbps, składającego się z jednej sondy, jednego kolektora, softu i wdrożenia wołają dziewięć tysięcy euro.

Całość rozwiązania opiera się o netflow, który od dawna był polecany jako narzędzie do analizy ruchu i wykrywania anomalii. Skoro już padło (nie z moich ust ;-)) odważne stwierdzenie, że jest to sposób zgodny z ustawą o retencji danych, to można przedstawić zarys, jak to zrobić samemu. Tym bardziej, że część ISP nadal korzysta z jakichś mało wydajnych i logujących znacznie mniej informacji rzeźb w stylu logowanie przy pomocy iptables. Oraz – co ważne – rozwiązanie oparte o netflow zapewnia zbieranie o logowaniu ruchu z hostów za NAT (jeśli uruchomione jest na routerze robiącym NAT).

Jeśli chodzi o protokół NetFlow oraz wysyłkę i zbieranie danych, w Debianie (i zapewne większości innych dystrybucji) od dawna dostępne są narzędzia zawarte w pakiecie flow-tools. Do wysyłki służy fprobe, do odbioru flow-capture Jak widać z Wikipedii (próbki sobie tym razem daruję), dla każdego połączenia (flow), zapisywane są czas rozpoczęcia i zakończenia połączenia, typ połączenia, docelowy i źródłowy adres IP, a także porty źródłowy i docelowy. To z ciekawszych rzeczy zgodnych z ustawą. Obciążenie generowane na maszynie zbierającej nie jest duże, choć przy dużych kilkudziesięciu Mbps robi się zauważalne.

Natomiast jeśli chodzi o sFlow, to w Debianie dopiero począwszy od wersji Wheezy, jest narzędzie do zbierania sfdump zawarte w pakiecie nfdump-sflow. Ta wersja korzysta z próbkowania, czyli badany jest co któryś pakiet na interfejsie. Dzięki temu obciążenie na urządzeniu zbierającym, czyli sondzie, jest praktycznie pomijalne.

Zebrane flowy, niezależnie od protokołu zbierania, zajmują stosunkowo niewiele miejsca (automatyczna kompresja), a wykorzystać je można nie tylko na potrzeby związane z retencją danych, ale także (przede wszystkim) do wykrywania anomalii w ruchu sieciowym czy – w przypadku zbierania danych z urządzeń mających informacje związane z BGP – do planowania sieci. Widać wówczas nie tylko z których IP jest ruch, ale także AS docelowy i źródłowy.

Zdaję sobie sprawę, że powyższe to żaden rocket science i pewnie większość sieciowców kojarzy temat (choć mali ISP – niekoniecznie). Natomiast w środowisku związanym z Linuksem może być to pewna ciekawostka. Celowo nie zamieszczam przykładów konfiguracji – dokumentacja jest dobra. Gdyby były pytania lub niejasności, proszę pytać w komentarzach, postaram się odpowiedzieć.

Na koniec uwaga: IANAL, więc nie podejmuję się określenia, czy taki sposób jest zgodny z przepisami nt. retencji danych. Na pewno zebrane dane są dokładniejsze i wygodniejsze, niż logi DHCP, logi z iptables itp. Jeśli chodzi o prywatność, to zawierają dokładnie tyle, na ile pozwala i ile wymaga ustawa. Nie jest logowany sam ruch, tylko dane o nim.