HumanRank

Dziś przeczytałem wpis o human.json i stwierdziłem, że temat jest godny pełnowymiarowego wpisu. Nie dlatego, że jest ciekawy, ale dlatego, jak bardzo nieprzemyślany i słabo wykonany jest to pomysł. Uprzedzam, że będzie stronniczo i trochę mi się uleje.

W skrócie, LLMosceptycy wpadli na pomysł, żeby ludzie zaczęli dodawać plik JSON, w którym będą wskazywać URLe do innych treści (stron) tworzonych przez ludzi. Do tego dodatek do przeglądarki, który pokaże ilu ludzi wskazało odwiedzaną stronę na tworzoną przez człowieka i jaka jest odległość (ilu pośredników) względem naszej strony.

Czyli – cytując wytłuszczenia ze strony projektu – autor strony deklaruje się jako człowiek i umieszcza plik. Następnie poręcza za inne strony. I rozszerza scope poręczeń.

Jeśli komuś się z czymś to kojarzy, to – jeśli jeszcze nie zorientował się na podstawie tytułu wpisu – jest to w założeniu bardzo podobne do PageRank stworzonego przez Google. Może i Google stwierdziło, że to nie działa dobrze, jest podatne na manipulacje SEO i wycofało się z projektu, ale tym razem się uda. OK, jest różnica, bo aktualnie human.json nie uwzględnia wag. Ale to wczesna wersja, więc możliwe, że wszystko przed nami.

Wersja Google była o tyle lepsza/prostsza, że nie wymagała osobnego pliku i używała po prostu linków ze strony. Ale to nic, wiadomo, że wszyscy ludzie są techniczni, tu sobie nagłówek dopiszą, tam plik wygenerują. Na ironię zakłada wybór formatu JSON, który jest pomyślany jako przetwarzalny przez automaty i niezbyt przyjazny ludziom.

Dalsze wady pomysłu? Ależ proszę bardzo. Rozwiązanie jest podatne na manipulację. Nie ma żadnego problemu, żeby kupić kilka(-naście, -set) stron, umieścić na nich human.json, który będzie linkować do pozostałych. Zapewne będą miały wyższą ilość potwierdzeń, niż wiele stron tworzonych przez ludzi.

Kolejny problem to założenie, że wszyscy pieczołowicie będą utrzymywać swoje pliki. O ile z dodaniem pliku nie ma większego problemu, to z czasem domeny wygasają, zmieniają właścicieli. Po kilku latach może być na nich zupełnie inna treść. Znam to doskonale i z linków na blogu, i z czytnika RSS. W przypadku PageRank był jeden opiekun, który dbał o jakość wskaźnika.

Czy to koniec problemów? Na pewno nie. Na pewno znajdą się chętni do „wymiany linków” tj. wzajemnego potwierdzenia swojego człowieczeństwa. Pamiętacie sprzedaż linków? Gdyby pomysł jakimś cudem się przyjął (w co nie wierzę) to handel linkami powróci w wielkim stylu. Tym razem linkami w human.json.

Czym więc jest human.json, albo jakie widzę jego niezamierzone skutki? Przede wszystkim jest deklaracją nie lubię LLM. Do tego oczywiście każdy ma prawo. Ale czy człowiek musi polegać na automatycznym, algorytmicznym wskaźniku z przeglądarki, żeby ocenić czy treść jest wartościowa? Wydaje mi się to dziwne.

Ostatni niezamierzony skutek, który widzę, to tworzenie kolejnego bąbelka. Bo czy strony ludzi, z których poglądami się nie zgadzamy, trafią do human.json równie często, jak tych, z którymi się zgadzamy? Szczerze w to wątpię.

16 odpowiedzi na “HumanRank”

  1. Poza tym, jakie są gwarancje, że modele LLM nie będą w zestawie z tekstami przez siebie generowanymi także human.json do kompletu 🙂

  2. Zgadzam się z Twoimi zastrzeżeniami. Niemniej, poboczny element instrukcji obsługi human.json warty jest zacytowania:

    „Just make sure to be clear and transparent about how AI is used, and consider publishing an /ai slashpage with your policy.”

    To niezła propozycja, żeby „zdeklarować się” na podstronie /ai.

    1. Czemu uważasz, że to niezła propozycja? Czemu ograniczamy się tylko do tego jednego aspektu, a nie deklarujemy na podstronie /religion poglądów religijnych, na podstronie /tools z jakiego systemu operacyjnego i narzędzi korzystaliśmy (to by pokrywało ew. użycie AI), a na /books książek, które kształtowały nasz światopogląd?

  3. Ależ wszystkie Twoje propozycje również są niezłe – może tylko zastąpiłbym /religion ogólniejszym /about, gdzie autor podaje kilka najważniejszych (jego/jej zdaniem) faktów o sobie. Ja czytając blogi lubię wiedzieć, że po drugiej stronie jest żywy człowiek z określonym światopoglądem i zainteresowaniami, a nie anonimowy „generator” treści.

    1. No właśnie /about już jest. Raczej jako podstrona, niż konkretny endpoint, ale jest. Kto chce, ten używa. Można wpisać cokolwiek, co się uzna za ważne. Po co zatem robić wyjątek?

      Raczej nie zaczynam lektury bloga od tego miejsca. Rzadko znajduję tam istotne, aktualne informacje. Wolę budować obraz autora na podstawie wpisów.

      Blogi pisane przez ludzi poznaję na pierwszy rzut oka. Czasem nawet pojedyncze wpisy. A gdyby pisało AI i uznałbym wpisy za interesujące to… w sumie co za różnica, kto był autorem?

  4. > A gdyby pisało AI i uznałbym wpisy za interesujące to…
    > w sumie co za różnica, kto był autorem?

    Trudne zagadnienie. Z jednej strony – oczywiście, masz rację, to tylko słowa. Można by sparafrazować Oscara Wilde’a: „W internecie nie ma artykułów napisanych przez człowieka albo napisanych przez AI, są tylko teksty ciekawe i nieciekawe.”

    Z drugiej strony, w epoce „ekonomii uwagi” liczy się (według mnie) zaufanie między autorem a odbiorcą. Na przykład Twój blog: Swoimi wcześniejszymi wpisami zaskarbiłeś moją ciekawość i zaufanie; czytam Cię, bo zakładam / wiem, że masz coś do powiedzenia. Gdybyś jednak „wpompował” Pomiędzy Bity wpisy wygenerowane potajemnie przez LLM-a, to po pierwsze, uznałbym, że to bez sensu (przecież w blogowaniu chodzi o przyjemność samodzielnego pisania!), a po drugie, powiedziałbym, że nadużywasz mojego czasu i mojej uwagi. 🙂

    1. Chyba będzie dłuższy wpis na ten temat, ale tymczasem trochę – wg mnie nie do końca uprawnionych – założeń widzę.
      1. Jeśli ja mam coś do powiedzenia[1], to może LLM też?
      2. Zakładasz, że jesteś w stanie rozpoznać, czy tekst pisał człowiek, czy AI. To nie jest takie oczywiste.
      3. A jeśli zadeklaruję, że korzystam z LLM, to czy to coś zmieni w stosunku do „potajemnie”? Czy skoro zdecydowałem się zamieścić to jest „moje”?
      4. Założenie o co chodzi autorowi w blogowaniu – bardzo odważne.
      5. Czy jeśli wrzucę wpis o czymś, co zupełnie Cię nie interesuje, nie dotyczy (powiedzmy o tym, że sąsiad od 3 dni wierci wiertarką akurat wtedy, gdy włączam Rammstein), to będzie nadużycie? Czy jednak po prostu najwyżej nie przeczytasz?

      [1] Twoim zdaniem. Nie zawsze istotnego (moim zdaniem, dla odmiany, z perspektywy czasu). Piękno tego układu polega na tym, że treść się pojawia tak czy inaczej. To odbiorca decyduje, czy (i kiedy) chce ją czytać. Nie czytasz moich tekstów, bo mnie znasz jako człowieka. Przecież nie znamy się osobiście, nie jestem celebrytą, którego życie/poglądy/whatever się śledzi. Znasz tylko moje teksty.

  5. Czyżby umknęło Ci „według mnie” na początku drugiego akapitu? Mowa o **moich** kryteriach doboru treści w internecie, czy, mówiąc bardziej abstrakcyjnie, o mojej metodyce kształtowania feeda. 🙂 Nikomu jej nie narzucam, ale też nie rozumiem, jak i po co miałbym ją obiektywnie uzasadniać…?

    Odpowiadając na Twoje punkty:

    1) LLM-y są bezwartościowe jako felietoniści, eseiści, blogerzy itp., ponieważ dobry felietonista, eseista, bloger pisze korzystając ze swojej osobistej optyki (doświadczeń, poglądów, wiedzy). LLM z definicji osobistej optyki nie posiada.

    2) Nie napisałem, że jestem w stanie rozpoznać. Na krótszą metę prawdopodobnie nie – na dłuższą metę wpisy zaczęłyby się robić po prostu wtórne, coś by mi przestało się kleić.

    3) Jeżeli oznajmisz, że od dzisiaj swoje notki generujesz przy pomocy LLM-a, na zasadzie „zadaję prompt, robię kopiuj-wklej”, to Twój blog odsubskrybuję, bo promptować mogę przecież samodzielnie i według własnego widzimisię. Analogia: Autor, którego lubię, oznajmia nagle, że odtąd wszystkie książki będzie pisał rękami ghost-writera. Też bym sobie dał spokój.

    4) Czyli Tobie pisanie na blogu nie sprawia przyjemności, ale piszesz, żeby się dręczyć? No bo chyba kokosów na tym nie zbijasz, nawet jeżeli masz włączone reklamy, których ja nie widzę dzięki adblockowi? 🙂

    5) Blog (felietony, eseje) czyta się nie tylko dla tematów, ale także dla stylu, sposobu postrzegania różnych spraw, wreszcie – z przyzwyczajenia. Jeżeli napiszesz o czymś, co zupełnie mnie nie interesuje, to nie przeczytam, albo po prostu przelecę tylko wzrokiem.

    „Nie znamy się osobiście” – ba, ja nie znam osobiście 100% autorów, felietonistów, eseistów, których czytam (z wyjątkiem paru blogerów). Cytując Ciebie: „Buduję obraz autora na podstawie wpisów”.

    1. Nie, nie umknęło, po prostu dyskutuję z nimi. Czy może raczej nie tyle z nimi, co nad tym, na ile są wyobrażeniem, a na ile rzeczywistością. Bez wartościowania, rozwinę tę myśl we wpisie.

      Ad. 1 Generując tekst do zadanego prompta, LLM odzwierciedli jedną z możliwości, z wielu, które posiada. Niewykluczone, że będzie to zbieżne z poglądami jakiegoś blogera na dany temat. Nie spodziewałbym się co prawda odkrywczości czy wyjątkowości, ale to mogą być poprawne utwory.

      Ad. 2 Skoro nie jesteśmy w stanie rozpoznać (na krótką metę), autor się pod tym podpisał, to po co nam deklaracja autora w tej kwestii? Przecież bywa i tak, że przestajemy czytać jakiś blog, bo autor zmienił styl, tematykę, poglądy. Albo zmieniły się nasze.

      Ad. 3 Pomiędzy przeklejaniem wyniku promptu na żywca, a „zero LLM” jest sporo możliwości. Wybór fragmentów, inspiracja wynikiem, poprawienie składni… Wg mnie lepiej oceniać wyniki niż podejmować decyzję na podstawie deklaracji.

      Ad. 4 Powiedzmy sobie wprost, gdyby chodziło tylko o „przyjemność z pisania”, to pisalibyśmy w zeszycie, ew. w plikach, które nie opuszczają naszych komputerów. Motywacja może być mieszana, a na przestrzeni dłuższego czasu pewnie się zmienia.

      Ad.5 Akurat do postrzegania spraw z różnych perspektyw czy różnych aspektów LLMy sprawdają się IMO nieźle. Raczej taki generator pomysłów i dróg, niekoniecznie takich, z którymi się zgadzam, ale… jak czytam czyjegoś bloga i jego postrzeganie świata to też niekoniecznie się zgadzam.

      Skoro „budujemy obraz autora na podstawie wpisów”, to po co podstrona /ai? Lęk, że nie zauważymy i jednak nam się spodoba?

  6. @rozie:
    Zanim odpowiem, czy mógłbyś powiedzieć krótko, jakiej właściwie tezy bronisz? Bo moja teza brzmi:

    Istnieje zasadnicza różnica między felietonami, esejami, notkami blogowymi[1] pisanymi przez człowieka a generowanymi przez LLM.

    I do tej tezy dopisuję subiektywny pogląd:

    Mnie felietony, eseje, notki blogowe generowane przez (albo w dużej mierze[2] przy użyciu) LLM nie interesują.[3]

    Zrozumiałem już, że poglądu nie podzielasz – ale czy z tezą też się nie zgadzasz?

    Przypisy:
    [1]: Specjalnie wyróżniam te trzy gatunki, bo np. podsumowania w wydaniu LLM-owym są już niczego sobie. Ale rozmawiamy tutaj o tekstach blogowych i blogopodobnych.
    [2]: Oczywiście, granica jest płynna. „W dużej mierze” = LLM napisał większość tekstu, człowiek tylko dokonał niewielkich, końcowych poprawek.
    [3]: Mógłbym oczywiście tłumaczyć, dlaczego mnie nie interesują, ale chodzi o to, że to jest prywatna opinia związana z gustem. Jeżeli ktoś chce czytać bloga wygenerowanego przez LLM-a, proszę bardzo, skolko ugodno.

    1. Od samego początku moja teza brzmi: nie ma sensu tego dodatkowo oznaczać. Bo albo tę różnicę po prostu widać, albo nie ma ona znaczenia.

      Z notkami[1] tego typu nie mam doświadczenia. Biorąc doświadczenia z nieco innych dziedzin – może być widoczna różnica w utworach, ale nadal mogą być godne uwagi.

      Ad. „3 gatunki” – notka blogowa może być instrukcją/howto (BTDT). Z tym LLM raczej sobie poradzi dobrze, szybka próbka, bez dokładnej instrukcji (podałem prompt), dla tematu z wpisu https://zakr.es/blog/2021/05/automatyczne-aktualizacje-debiana-howto/https://gist.github.com/rozie/522fb2c9fd3c2a2909fbf1f7c746269c (chatGPT).

      [1] Notek „blogowych” (bo WordPress) typowo pod SEO, pisanych przez copywriterów nie biorę teraz pod uwagę.

  7. Ach, to my cały czas dyskutujemy o słuszności bądź nie podstrony /ai? 🙂

    > Bo albo tę różnicę po prostu widać,
    > albo nie ma ona znaczenia.

    Czasami jednak nie widać jej od razu.

    Ja bym porównał to do sytuacji z ghostwritingiem. Jeżeli autor X firmuje swoim nazwiskiem książkę, którą tak naprawdę napisał autor Y, to jako czytelnik wolałbym, żeby było to oznaczone na okładce (albo zaraz za okładką).

  8. > Ach, to my cały czas dyskutujemy o słuszności bądź nie podstrony /ai? 🙂

    Jest to punkt wyjściowy, ja cały czas mam go na względzie.

    > Czasami jednak nie widać jej od razu.

    To prawda. Ale raczej też nie wyrabiamy sobie opinii o blogu na podstawie jednego wpisu.

    > Ja bym porównał to do sytuacji z ghostwritingiem.

    No właśnie, czy przyjęte jest oznaczanie tego faktu? Podawanie faktycznego autora? W przypadku stron internetowych, SEO itp. – raczej nie.

    Zresztą znowu, kwestia skali i zastosowania. Bo narzędzia do sugerowania poprawek w tekście są od dawna w użyciu i nic wspólnego z LLMami nie mają. Słowniki ortograficzne, synonimów, sprawdzanie długości zdań itd. itp.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *