Za drogo? Ustaw alerty cenowe na e-booki i kupuj taniej!

O tym jak narzędzia AI masowo korzystają z pirackich e-booków

W pogoni za sukcesem w branży AI wszystkie chwyty wydają się dozwolone. W tym i korzystanie z pirackich książek.

Większość popularnych ostatnio generatywnych narzędzi AI opiera się na tzw. wielkich modelach językowych (Large Language Models). Modele trenowane są na tekście. Jakim? No, możliwie najbardziej wartościowym. Tylko skąd go wziąć? Można oczywiście kupić. Ale można pójść na skróty.

Parę dni temu firma Meta (właściciel Facebooka) przyznała się, że trenując swoje modele o nazwie LLaMa korzystała z pirackich zasobów z bazy Books3. Baza ta powstała w roku 2020, gdy badacz AI, Shawn Presser ściągnął zawartość pirackiej strony Bibliotik. Całą bazę opublikował publicznie w serwisie The Eye, zawierała łącznie ponad 195 tysięcy e-booków.

Tak wyglądał fragment Books3.

Było tu mydło i powidło, zwraca uwagę katalog „Calibre_Libraries”, który zapewne zawierał biblioteki Calibre udostępnione przez osoby, które źle skonfigurowały swoje serwery zawartości Calibre i niechcący stały się piratami (tu mój artykuł na ten temat).

No, a patrząc na nazwisko Asimova można się zadumać nad tym, czy narzędzia AI ogarną zasady etyki robotów…

Dopiero niedawno duńska antypiracka grupa Rights Alliance wymusiła zdjęcie tej bazy z serwisu The Eye, ale inne nadal tam są – nie mam pojęcia na ile legalne.

Piraci wytrenują sztuczną inteligencję?

Z bazy Books3 korzystała Meta i prawdopodobnie inne firmy pracujące nad LLM.

Meta przyznała się do tego parę dni temu, odpowiadając na pozew kilku twórców w sądzie w Kalifornii.

“Meta admits that it used portions of the Books3 dataset, among many other materials, to train Llama 1 and Llama 2,” Meta writes in its answer.”

W międzyczasie powstały też inne bazy przygotowane specjalnie pod LLM.

Jest sobie na przykład piracki serwis Anna’s Archive, zbierający teksty ze Sci-Hub, Library Genesis, Z-Library i innych miejsc. Ci wręcz zachęcają do skorzystania z LLM Data – „We have the largest collection of books, papers, magazines, etc in the world”, no i mają rzekomo 25 milionów książek. Ale w przeciwieństwie do Books3 nie udostępnią tego za darmo.

Meta to nie jedyna firma korzystająca z pirackich materiałów.

Na przykład już w czerwcu 2023 wyszło na jaw, że firma OpenAI, stojąca za ChatGPT przy pracy nad starszą wersją GPT-3 korzystała z baz „Books1” i „Books2”. Pierwsza zawiera podobno bezpłatne książki z Projektu Gutenberg, ale druga to też teksty z Lib-Gen i Z-Library. Znów – nie wiedzielibyśmy tego, gdyby nie pozwy od artystów, którzy w odpowiedzi na zapytania znaleźli swoje teksty. No ale inaczej nie może być. Jeśli prosimy Chata GPT o napisanie czegoś w stylu jakiegoś autora, choćby Tokarczuk, no to skądś tę Tokarczuk musi znać.

Co, jeśli nie chcesz trenować modelu na pirackich danych?

Tworzenie narzędzi AI to dziś ogromna liczba entuzjastów, którzy szukają materiałów na których mogą pracować. Istnieją zatem popularne bazy zawierające wyłącznie treści „legalne”, na przykład z domeny publicznej i na wolnej licencji. Sporą listę tych baz znajdziemy na GitHubie.

Są też polskojęzyczne korpusy „darmowych” tekstów. Na przykład darmowa część projektu National Corpus of Polish zawiera między innymi… transkrypcje obrad Sejmu i komisji śledczej w sprawie Rywina! Wyobrażacie sobie ChatGPT, który będzie odpowiadał na podstawie wiedzy wyciągniętej z tych źródeł? 😁

Polskie instytucje pracujące nad AI zawiązały w listopadzie 2023 konsorcjum PLLuM (Polish Large Language Universal Model), które zajmie się stworzeniem polskiej alternatywy dla znanych narzędzi.

Oprócz płatnych modeli językowych, istnieją już wprawdzie wielkie modele językowe na otwartych licencjach, jednak wśród nich nadal brakuje modeli wytrenowanych na reprezentatywnych zbiorach języka polskiego. Niewielki udział polskich tekstów w procesie trenowania lub jedynie dostrojenie do języka polskiego sprawiają, że modele te nie nadają się do wielu komercyjnych zastosowań w języku polskim. Dlatego PLLuM – jak czytamy w komunikacie – ma na celu wsparcie polskich przedsiębiorców w wyścigu technologicznym poprzez stworzenie dostępu do modeli z rozszerzonym językiem polskim na bezpłatnej, otwartoźródłowej licencji, który będzie odpowiadał wymogom rynku.

Mocno temu kibicuję, choć wykorzystanie „darmowych” baz nie załatwia wszystkich spraw licencyjnych. Bo na przykład treści z Wikipedii są dostępne na licencji Creative Commons – uznanie autorstwa, na tych samych warunkach, a to oznacza, że trzeba się powołać na źródło i ewentualne remiksy też opublikować na CC. Stwarza to problemy, szczególnie w narzędziach, które są „czarną skrzynką” i same nie potrafią powiedzieć skąd wypluły dany tekst.

Autorzy, publikujcie za darmo?

Wróćmy jeszcze do firmy Meta. Właściciel Facebooka tylko w III kwartale ubiegłego roku zarobił netto 11 mld dolarów. Mimo tego nie stać ich, aby kupić prawa użycia treści, tylko korzystają z pirackich. Przypuszczam, że chodzi tutaj również o szybkość – w walce o dominację w świecie AI liczy się każdy tydzień, a ile czasu zajęłoby dogadywanie umów?

Ale niektórzy pracownicy Meta dorabiają do tego też jeszcze dodatkowe teorie.

Otóż Yaan LeCun, pracujący na stanowisku Chief AI Scientist w Meta tak napisał 1 stycznia 2024. Komentował informację, że większość autorów książek zarobiła na nich mniej niż 2 tysiące dolarów.

Skoro niewielu autorów zarabia sensowne pieniądze na sprzedaży książek, to… większość powinna być dostępna bezpłatnie do ściągnięcia!

On się potem z tego tłumaczył, że autorom bardziej powinno zależeć na popularności i przyczynieniu się do rozwoju cywilizacji, że przecież wielu naukowców publikuje bezpłatnie swoje prace, że w świecie oprogramowania mamy open source i tak dalej.

No i można z niektórymi tezami się nawet zgodzić, ale co jest najważniejsze? Przecież parę dni później wyszło na jaw, że kierowany przez niego dział wziął sobie książki za darmo bez pytania autorów!

Podsumowanie

Temat piractwa e-booków poruszałem tutaj nieraz, choćby pisząc o mitach dotyczących piractwa, albo o naszych pirackich hipokryzjach.

No i słowo „hipokryzja” tutaj bardzo ładnie pasuje – bo wygląda na to, że jakkolwiek wielcy gracze walczą z naruszeniami praw autorskich, czasami bardzo absurdalnie (na przykład automatycznie blokując filmy na YT), ale gdy gra toczy się o najwyższą stawkę, to sami nie przejmują się przestrzeganiem tych praw.

Źródła: Torrentfreak, Techspot

Artykuł był przydatny? Jeśli tak, zobacz 6 sposobów, na jakie możesz wspomóc Świat Czytników. Dziękuję!

Ten wpis został opublikowany w kategorii Książki na czytniki i oznaczony tagami , . Dodaj zakładkę do bezpośredniego odnośnika.
Hosting: Zenbox

23 odpowiedzi na „O tym jak narzędzia AI masowo korzystają z pirackich e-booków

  1. Fretka pisze:

    Czyli biedny ma dołożyć się do powstawania AI, na której zarobią bogaci? Ktoś naprawdę chce, by „eat the rich” stało się rzeczywistością a nie metaforą…

    24
  2. Darth Artorius pisze:

    Piknie !
    „Hej bracia piraci
    Czeka Was przygoda
    Pewnie się opłaci
    I nie będzie szkoda
    Hej piraci sława nam !”
    (Cytat z piosenki z serialu o Pippi Langstrumpf)

    Proponuję zmianę z „piraci” na korsarze (ci bywali legalni) albo bukanierzy (romantycznie)

    2
  3. Amper pisze:

    Sztuczna inteligencja to najprawdziwszy, cyfrowy Janosik — podbiera wiedzę bogatym i dzieli się nią z biednymi :)

    2
    • Robert Drózd pisze:

      A nie że podbiera wiedzę biednym (autorom), a dzieli się z bogatymi (których stać na kupno subskrypcji AI)? :)

      10
      • Amper pisze:

        Hmm, możliwe, chociaż akurat tak to robił Robin Hood, który golił z kosztowności biednych podróżujących lasem Sherwood, zaś dziennym utargiem dzielił się z szeryfem z Nottingham w zamian za sfabrykowanie oficjalnej wersji tej legendy :)

        3
  4. system_failure pisze:

    A propos etyki, to ciekawe czy w momencie wyczerpywania się zasobów do nauki w „normalnym” internecie, nie zaczną się one uczyć na zasobach Deep Web’u, czyli na niepodlegającej indeksacji, ukrytej sieci, która jest co najmniej kilkukrotnie większa od sieci powszechnie dostępnej. W tym wyścigu o palmę pierwszeństwa, pokusa dla twórców może być w przyszłości niezwykle silna. A jak wiemy, w biznesie wszystkie chwyty są dozwolone w walce z konkurencją. Pytanie tylko jak to się wtedy odbije na etyce owych modeli? Rywalizacja modeli białych z czarnymi może się stać kiedyś bardzo ciekawym zjawiskiem.

    4
  5. Moperetka pisze:

    „Skoro niewielu autorów zarabia sensowne pieniądze na sprzedaży książek, to… większość powinna być dostępna bezpłatnie do ściągnięcia!”. Skoro bez dostępu do tych danych nie da się sensownie wytrenować AI, a dane te się spiratowało, czyli ukradło, to w ramach zadośćuczynienia opracowane tak narzędzie powinno być dostępne za darmo do celów niekomercyjnych.

    5
    • Loop pisze:

      Czy nie byłoby to wtedy jawne przyzwolenie na paserstwo? Skoro cele niekomercyjne byłyby wyłączone z opłaty, to jasnym jest, że po jej uiszczeniu kwitł by proceder komercyjnego wykorzystania tych danych, bez obawy o pozwy sądowe ze strony pierwotnych autorów.

      2
    • Robert Drózd pisze:

      Jest w tym trochę racji, bo Open AI był częściowo projektem niekomercyjnym, a w takim przypadku często się patrzy troszkę przez palce na naruszenia. Np. takie Internet Archive byłoby pewnie szybciej zamknięte gdyby pobierali opłaty za dostęp do swojej biblioteki. No, ale Open AI w ostatnim roku zaczął być agresywnie monetyzowany, a Meta czy Google nigdy nie ukrywały że chcą na AI zarabiać.

      2
  6. Darth Artorius pisze:

    A imię ich Skynet ….

    2
  7. lepszaAInizbrakIQ pisze:

    W zasadzie trudne życie ma ta SI. Do naśladowania niektórych „topowych” autorów prócz próbki wypocin najpierw musiałaby biec do apteki po wazelinę i sprawdzić obowiązujące trendy światopoglądowe – choć niektóre dyżurne tematy może brać w ciemno;)

    0
    • Robert Drózd pisze:

      Jeśli „rozmawiałeś” z jakimikolwiek czatami, to wiesz pewnie, że ciężko je zmusić do jakiejkolwiek „niepoprawnej” politycznie wypowiedzi.

      2
      • Mmm pisze:

        To tylko te, które są dostępne publicznie bo mają zakładane filtry. Z resztą te, które mamy na zachodzi to jeszcze spoko. Ale chińskie na ichniejszy rynek są bardzo ograniczane. Poczekajmy jednak, gdy rozwinie się hardware na tyle by postawić sobie to na jakimś lepszym PC a nie superkomputerach i wtedy każdy będzie mógł sobie postawić takie AI bez żadnych filtrów…

        0
        • Robert Drózd pisze:

          Zuckerberg ujawnił niedawno, że do trenowania ich modelu llama3 używają 350 tysięcy (!) procesorów graficznych Nvidia H100. To podobno wartość ok. 20 mld dolarów. W domu na mniejszej ilości danych trenować modele można już teraz, ale rozmach korporacji jest niewyobrażalny.

          2
          • asymon pisze:

            No to czekamy, aż ktoś zbuduje projekt podobny do Folding@home.

            …a jak będą wyniki, korpo to „sprywatyzują”.

            0
          • Mmm pisze:

            Jak chodziłem na studia to był sobie super komputer (zbudowany na pentiumach pro) za nieosiągalne dla „zwykłego” człowieka pieniądze. Puścili na nim kiedyś także dostępne obliczenia rozproszone np. Seti@Home. Na początku pandemii jeden AMD ThreadRipper osiągnął połowę wydajności tego super komputera w obkuczeniach Seti@Home.
            Wiadomo,że nie stanie się to za rok lub dwa. Ale czy kiedyś taki akcelarator AI będzie dostępny za pieniądze, na które sobie pozwoli przeciętna firma? Zwłaszcza, że trening jest najbardziej obciążający a pojedyncze zapytania mniej.

            0
  8. Mmm pisze:

    Po prostu wielkie koncerny chcą tego samego od autorów książek co dostały od programistów, jakichś odpowiedników open source. Zarówno jako narzędzia do pracy (choćby szeroko pojęty Linux i mnóstwo narzędzi) jak i materiałów do uczenia (kod na GitHub). Do dobrego szybko się człowiek przyzwyczaja.

    1
  9. asymon pisze:

    No dobra, kazałem Copilotowi wygenerować okładki do paru książek w oparciu o fabułę i widać że nie czytał…
    1 2 3 4

    1
  10. kondrart pisze:

    1 Czy mogę do uczenia swojego I (MyI) użyć pirackich książek? Czemu ja mam być traktowany gorzej od robota?
    2 Ponieważ treściotok generowany przez AI jest znacznie większy niż treści pisane przez normalnych twórców – wkrótce AI będą w większości uczyć się na treściach wygenerowanych przez AI. Czyli układ błyskawicznie się zapętli. Czy od tego zgłupieje?

    1
    • mjm pisze:

      Ad 1.
      Możesz. I nawet nie złamiesz przy tym żadnego prawa, zabronione jest udostępnianie treści, nie ściąganie.

      0

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Przed dodaniem komentarza zapoznaj się proszę z zasadami komentowania i polityką prywatności

Komentarze do tego artykułu można śledzić także w formacie RSS.