Migracja z Blox na WordPressa – HOWTO

Jak pisałem poprzednio, na pierwszy rzut do migracji poszedł blog o kapeli Bez Krótkich Spodni. Z migracją zeszło mi nieco dłużej, niż planowałem, głównie za sprawą hostingu, który się kończy, a którego nie przedłużam. Zamiast dedyka w Kimsufi zdecydowałem się na dwa VPSy w arubacloud.pl. Zaleta: taniej i SSD. Wada: potrzebuję dwie maszyny, co wiązało się z podziałem usług. I niestety, mimo konteneryzacji część usług jest od siebie zależna, głównie za sprawą domeny. W każdym razie zeszło więcej czasu, niż planowałem, ale jest to sensowniej podzielone.

Sama migracja na WordPress jest prosta. Najpierw instalujemy WordPressa. Long story short:

wget https://wordpress.org/latest.tar.gz
tar -zxf latest.tar.gz
chown www-data:www-data katalog

Pozostaje utworzenie bazy i użytkownika:

CREATE DATABASE wordpress_db;
GRANT ALL PRIVILEGES ON wordpress_db.* TO "wordpress_db_user"@"localhost" IDENTIFIED BY "VeryStrongPassword";

W przypadku instalacji opartej o serwer nginx i WordPressa trzeba jeszcze dodać jedno ustawienie w konfiguracji tego pierwszego:

location /bks/ {
    try_files $uri $uri/ /bks/index.php?$args;
}

Następnie uruchamiamy instalator WordPressa przez WWW i logujemy się. Warto usunąć przykładowy wpis i strony, z których nie korzystamy, można wybrać szablon (cóż, domyślny robi robotę jak dla mnie) i zrobić porządek w pluginach.

Niestety Blox wyciął użytkownikom możliwość eksportu wpisów, więc w tym miejscu musiałem posiłkować się autorskim skryptem, by zdobyć treść bloga z Blox w formacie wordpressowym. Potem szybkie dopieszczenie szablonu, zwłaszcza zdjęcia z nagłówka i… w zasadzie jest. Niestety, obrazki w takim rozwiązaniu są serwowane nadal z serwerów Blox, więc nie mamy pełnej niezależności i będziemy dostawać komunikat ostrzegawczy przy HTTPS, bo nie wszystkie treści są serwowane w sposób bezpieczny.

Jest jednak na to sposób. Okazuje się, że istnieje plugin Download External Images In Posts, który robi dokładnie to, na co wskazuje nazwa – pobiera obrazki ze zdalnego serwera, zapisuje je lokalnie i podmienia linki we wszystkich wpisach, także już istniejących. Działa zadziwiająco dobrze, choć jedna rzecz mi się w nim nie podoba: musi pozostać aktywny po zrobieniu roboty, bo linki nie są podmienione w treści. Ale z tym jestem w stanie żyć.

Ostatni szlif to dodanie statystyk Matomo (dawniej Piwik). Skorzystałem z pluginu Insert Headers and Footers, następnie wkleiłem tam stosowny JS.

Efekt finalny migracji na WordPress widać w pierwszym linku. Jak widać zachowana została treść wpisów, ich daty, komentarze, ich autorzy oraz daty. Działają także tagi i kategorie (tych ostatnich akurat nie używam na blogu BKS). Wszystko jest serwowane po HTTPS (i dodatkowo HTTP/2, ale to już zaleta nginx z odpowiednią konfiguracją), czyli szybko, bezpiecznie i SEO friendly. Tak, jak powinno być. 🙂

Zostało posprzątanie na starym blogu i przekierowanie w nowe miejsce, ale to już bez pośpiechu…

Dodam jeszcze, że WordPress spodobał mi się na tyle, że rozważam migrację tego bloga także na WP, zamiast statycznego Pelicana. Ale nad tym jeszcze chwilę pomyślę.

UPDATE Aby działały poprawnie wszystkie ustawienia dla bezpośrednich odnośników, trzeba podać katalog w konfiguracji, zgodnie z tym opisem.

UPDATE2 Warto zaktualizować URLe w treści postów, żeby kierowały na aktualny blog. Na szczęście można to zrobić automatycznie w prosty sposób. Na Blox schemat URLa posta to http://adresbloga.blox.pl/YYYY/MM/Tytul-wpisu.html
Zakładając, że nasz WordPress używa podobnego schematu, korzystamy z HTTPS i przenieśliśmy się na example.com, czyli mamy https://example.com/YYYY/MM/Tytul-wpisu należy… Zrobić backup bazy (lub całego bloga, polecam wpis o dodatkach do WordPressa). Opisany sposób działa dla MariaDB, goły MySQL podobno może mieć problemy, więc lepiej mieć do czego wrócić. Jak już mamy backup i wiemy co z nim robić, wydajemy polecenie:

update wp_posts set post_content = regexp_replace(post_content, 'http://adresbloga.blox.pl/20(.*?).html', 'https://example.com/20\\1');

W przypadku mojego bloga było to dokładnie:

update wp_posts set post_content = regexp_replace(post_content, 'http://rozie.blox.pl/20(.*?).html', 'https://zakr.es/blog/20\\1');

Uciec, ale dokąd?

Chwytliwy tytuł nie jest związany z filmem. Pod koniec zeszłego roku w komentarzu u Boniego wyraziłem przypuszczenie, że roku 2018 nie skończę na Blox i… stało się. Równia pochyła była widoczna od dłuższego czasu, najpierw wyłączane były funkcjonalności (API), potem doszły problemy ze stabilnością naprawiane… długo i nie do końca, bo błąd 503 się pojawia – relatywnie niski wynik Blox na mojej stronie ze statystykami nie jest przypadkiem. Zapowiadanych nowych funkcjonalności nie ma – nowy panel nie został nigdy ukończony, nowe szablony są nadal trzy na krzyż, mimo zapowiedzi. O HTTPS można zapomnieć, co oznacza, że wkrótce blogi na Blox będą oznaczone jako niezaufane w przeglądarkach, pewnie za jakiś czas polecą w dół w indeksach Google. Nawet blog o Blox nie jest już od dłuższego czasu aktualizowany. Znaczy, że przyszłość rysuje się niewesoło, było wiadomo od dłuższego czasu.

Zamknięcie serwisów blog.pl oraz bloog.pl na początku roku (Onet i WP, odpowiednio) pewnie dodało Agorze odwagi w wyciskaniu zysków z upadającej platformy i postanowiono dołożyć reklamy. O tym, że mogą zamieszczać reklamy, było wiadomo od dawna, bo jest to napisane w regulaminie odkąd pamiętam. I reklamy były serwowane na nieaktualizowanych blogach.

Jednak tym, co przelało czarę goryczy nie jest fakt zamieszczenia reklam, tylko forma. Zarówno forma reklamy, totalnie nieestetycznej, rozwalającej wygląd szablonu, wklejonej na samej górze (wiadomo, co jest najważniejsze… żeby żaden user nie zapomniał przypadkiem kliknąć, a blog to taka przylepka do reklamy), w dodatku dynamicznej (animacja), zasłaniającej jakieś 75% ekranu na moim smartfonie, jak i forma komunikacji zmian użytkownikom.

Otóż komunikacji nie było żadnej. A jak już użytkownicy zauważyli reklamę i zapytali na forum co jest grane, to usłyszeli:

Jednak koszty utrzymania platformy Blox.pl wzrosły i wprowadziliśmy zmianę – nieinwazyjne reklamy są wyświetlane teraz na wszystkich blogach.

Wolne żarty. Nie lubię zaglądać komuś do kieszeni, ale koszty hostingu, łącz i sprzętu komputerowego regularnie spadają. W tym ostatnim przypadku rośnie wydajność sprzętu/pojemność dysków, przy zachowaniu cen. Oczywiście Agora może sobie dowolnie księgować koszty i zapewne na papierze koszt utrzymania platformy wzrósł, niemniej można to ująć po prostu chcemy więcej zarabiać na Blox (i mamy w głębokim poważaniu, co sądzą o tym użytkownicy, albowiem silna nasza pozycja[1]). O „nieinwazyjności” reklamy było wyżej.

W każdym razie będę stąd znikał. Nie wiem jeszcze dokąd pójdę i kiedy dokładnie, ale znikam na pewno. Jestem w tej komfortowej sytuacji[1], że mam i backup bloga, i narzędzie do migracji z Blox do WordPressa (gdyby ktoś był zainteresowany, polecam kontakt jak w dziale kontakt; TANSTAAFL). Choć nie wiem, czy akurat na WordPressa chciałbym się przenieść. Z jednej strony de facto standard i wygodny, z drugiej statyczne generatory bloga (tu: Pelican) nadal kuszą… Tylko jest problem z komentarzami. Z drugiej strony chyba połowa komentarzy to spam lub krytpospam i usuwam, więc… Tak czy inaczej, dojrzałem do self hosted bloga, tym razem.

W każdym razie nie należy spodziewać się tu wielu nowych wpisów – energia idzie w migrację. Na pierwszy ogień idzie blog BKS, przy okazji pewnie nieco zaktualizuję treść. Można spodziewać się zmian związanych z przekierowaniem użytkowników w nowe miejsce i stopniowego(?) znikania treści. Jeśli korzystasz z kanału RSS innego, niż ten, to polecam aktualizację w czytniku RSS – dołożę starań, by zachować ciągłość. Dla tych, co bez RSS w – razie czego będzie mnie można znaleźć przez Planetę Joggera. Wpis na ostateczne pożegnanie też jest planowany, ale to jeszcze nie teraz.

[1] Trzeba przyznać, że wyłączenie API, plus właścicielstwo domeny, plus niezłe pozycjonowanie, plus brak kontroli nad nagłówkami przez użytkowników stawiają Agorę na mocnej pozycji, bo migracja dla przeciętnego użytkownika jest IMO niewykonalna, chyba, że ktoś będzie ręcznie wpisy przenosił… No ale o tym, że prawdziwe własność daje własna domena wiadomo nie od dziś.

Blox.pl – feed RSS dla pojedynczej kategorii

Wymaganiem udziału w konkuresie DSP2017 jest podanie feedu RSS zawierającego wyłącznie posty związane z konkursem. Blox.pl spłatał mi niemiłego figla i dał wybór – albo stary, paskudny wygląd, albo brak możliwości pobrania feedu RSS dla pojedynczej kategorii. Sprawę zgłosiłem, ale znając czasy realizacji stwierdziłem, że mam trzy możliwości: zrezygnować z DSP2017, postawić osobnego bloga specjalnie dla DSP2017 albo zrobić coś samemu.

Pierwsze dwie możliwości odrzuciłem. Jakoś nie widział mi się blog z 20 postami, kolejnego prowadzić mi się nie chce, a Blox ma swoje zalety i do porzucenia jeszcze nie dojrzałem. Spojrzałem co też mam do dyspozycji pod ręką, bo w pewne parsowanie feedu RSS bawiłem się już przy pomocy Perla (patrz zawartość mojego konta na blabler.pl). Niestety, stwierdziłem, że niezbyt się to nadaje do użytku.

Poza tym, przeszedłem na Pythona, więc pomyślałem o małej rozgrzewce. Pierwszym pomysłem było przeparsowanie całego feeda i złożenie RSS. Znalazłem przykłady parsowania XML z użyciem beautifulsoup4, z którego zresztą trochę wcześniej korzystałem. Wyciąganie zawartości poszczególnych postów poszło bardzo dobrze.

Stwierdziłem, że zamiast się bawić w tworzenie feedu kolejnym modułem, w ramach eksperymentu dodam przy pomocy chamskich printów nagłówki od XML. O dziwo zadziałało, Firefox widział coś, co wyglądało prawie jak oryginał. Jedynym problemem było kodowanie – zdecydowanie był problem z pl-znakami. Rzecz w tym, że Blox używa iso-8859-2, a Python wypluwa UTF-8. Wystarczyła szybka zmiana deklaracji kodowania w nagłówku XML i już było OK.

Kolejny problem wyszedł przy przepuszczeniu feeda przez validatory feedów RSS. Okazało się, że beautifulsoup4 zamienia wszystkie znaki w tagach na lowercase i – wierząc szybkiemu sprawdzeniu – nie ma prostego sposobu, by go od tego odwieść. Podjąłem próbę zamiany moduł na inny, ale szybko zrezygnowałem na rzecz brzydkich, ale skutecznych sedów na wyniku działania skryptu.

Na koniec zostało dodanie wywołania (z użyciem utworzonego na tę okoliczność virutalenv) do crona:

*/15 * * * * /home/rozie/dsp2017/bin/python /home/rozie/rss_from_category_blox.py 2>/dev/null | /bin/sed s'/pubdate/pubDate/g' | /bin/sed 's/lastbuilddate/lastBuildDate/g' > /tmp/dsp2017.xml && /bin/mv -f /tmp/dsp2017.xml /var/www/dsp2017.xml
*/15 * * * * /home/rozie/dsp2017/bin/python /home/rozie/rss_from_category_blox.py 2>/dev/null > /tmp/dsp2017.xml && /bin/mv -f /tmp/dsp2017.xml /var/www/dsp2017.xml

Całość wrzucam na GitHub, na wypadek, gdyby miało się komuś przydać.

UPDATE: Zgodnie z sugestią z komentarza, parsuję XML prawidłowo i pozbyłem się sed poprawiającego wyjście.