O tym jak narzędzia AI masowo korzystają z pirackich e-booków

18 stycznia 2024 Autor: Robert Drózd. Tematy: Aktualności • Prawo autorskie. Komentarze (23) »

W pogoni za sukcesem w branży AI wszystkie chwyty wydają się dozwolone. W tym i korzystanie z pirackich książek.

Większość popularnych ostatnio generatywnych narzędzi AI opiera się na tzw. wielkich modelach językowych (Large Language Models). Modele trenowane są na tekście. Jakim? No, możliwie najbardziej wartościowym. Tylko skąd go wziąć? Można oczywiście kupić. Ale można pójść na skróty.

Parę dni temu firma Meta (właściciel Facebooka) przyznała się, że trenując swoje modele o nazwie LLaMa korzystała z pirackich zasobów z bazy Books3. Baza ta powstała w roku 2020, gdy badacz AI, Shawn Presser ściągnął zawartość pirackiej strony Bibliotik. Całą bazę opublikował publicznie w serwisie The Eye, zawierała łącznie ponad 195 tysięcy e-booków.

Tak wyglądał fragment Books3.

Było tu mydło i powidło, zwraca uwagę katalog „Calibre_Libraries”, który zapewne zawierał biblioteki Calibre udostępnione przez osoby, które źle skonfigurowały swoje serwery zawartości Calibre i niechcący stały się piratami (tu mój artykuł na ten temat).

No, a patrząc na nazwisko Asimova można się zadumać nad tym, czy narzędzia AI ogarną zasady etyki robotów…

Dopiero niedawno duńska antypiracka grupa Rights Alliance wymusiła zdjęcie tej bazy z serwisu The Eye, ale inne nadal tam są – nie mam pojęcia na ile legalne.

Piraci wytrenują sztuczną inteligencję?

Z bazy Books3 korzystała Meta i prawdopodobnie inne firmy pracujące nad LLM.

Meta przyznała się do tego parę dni temu, odpowiadając na pozew kilku twórców w sądzie w Kalifornii.

“Meta admits that it used portions of the Books3 dataset, among many other materials, to train Llama 1 and Llama 2,” Meta writes in its answer.”

W międzyczasie powstały też inne bazy przygotowane specjalnie pod LLM.

Jest sobie na przykład piracki serwis Anna’s Archive, zbierający teksty ze Sci-Hub, Library Genesis, Z-Library i innych miejsc. Ci wręcz zachęcają do skorzystania z LLM Data – „We have the largest collection of books, papers, magazines, etc in the world”, no i mają rzekomo 25 milionów książek. Ale w przeciwieństwie do Books3 nie udostępnią tego za darmo.

Meta to nie jedyna firma korzystająca z pirackich materiałów.

Na przykład już w czerwcu 2023 wyszło na jaw, że firma OpenAI, stojąca za ChatGPT przy pracy nad starszą wersją GPT-3 korzystała z baz „Books1” i „Books2”. Pierwsza zawiera podobno bezpłatne książki z Projektu Gutenberg, ale druga to też teksty z Lib-Gen i Z-Library. Znów – nie wiedzielibyśmy tego, gdyby nie pozwy od artystów, którzy w odpowiedzi na zapytania znaleźli swoje teksty. No ale inaczej nie może być. Jeśli prosimy Chata GPT o napisanie czegoś w stylu jakiegoś autora, choćby Tokarczuk, no to skądś tę Tokarczuk musi znać.

Co, jeśli nie chcesz trenować modelu na pirackich danych?

Tworzenie narzędzi AI to dziś ogromna liczba entuzjastów, którzy szukają materiałów na których mogą pracować. Istnieją zatem popularne bazy zawierające wyłącznie treści „legalne”, na przykład z domeny publicznej i na wolnej licencji. Sporą listę tych baz znajdziemy na GitHubie.

Są też polskojęzyczne korpusy „darmowych” tekstów. Na przykład darmowa część projektu National Corpus of Polish zawiera między innymi… transkrypcje obrad Sejmu i komisji śledczej w sprawie Rywina! Wyobrażacie sobie ChatGPT, który będzie odpowiadał na podstawie wiedzy wyciągniętej z tych źródeł? 😁

Polskie instytucje pracujące nad AI zawiązały w listopadzie 2023 konsorcjum PLLuM (Polish Large Language Universal Model), które zajmie się stworzeniem polskiej alternatywy dla znanych narzędzi.

Oprócz płatnych modeli językowych, istnieją już wprawdzie wielkie modele językowe na otwartych licencjach, jednak wśród nich nadal brakuje modeli wytrenowanych na reprezentatywnych zbiorach języka polskiego. Niewielki udział polskich tekstów w procesie trenowania lub jedynie dostrojenie do języka polskiego sprawiają, że modele te nie nadają się do wielu komercyjnych zastosowań w języku polskim. Dlatego PLLuM – jak czytamy w komunikacie – ma na celu wsparcie polskich przedsiębiorców w wyścigu technologicznym poprzez stworzenie dostępu do modeli z rozszerzonym językiem polskim na bezpłatnej, otwartoźródłowej licencji, który będzie odpowiadał wymogom rynku.

Mocno temu kibicuję, choć wykorzystanie „darmowych” baz nie załatwia wszystkich spraw licencyjnych. Bo na przykład treści z Wikipedii są dostępne na licencji Creative Commons – uznanie autorstwa, na tych samych warunkach, a to oznacza, że trzeba się powołać na źródło i ewentualne remiksy też opublikować na CC. Stwarza to problemy, szczególnie w narzędziach, które są „czarną skrzynką” i same nie potrafią powiedzieć skąd wypluły dany tekst.

Autorzy, publikujcie za darmo?

Wróćmy jeszcze do firmy Meta. Właściciel Facebooka tylko w III kwartale ubiegłego roku zarobił netto 11 mld dolarów. Mimo tego nie stać ich, aby kupić prawa użycia treści, tylko korzystają z pirackich. Przypuszczam, że chodzi tutaj również o szybkość – w walce o dominację w świecie AI liczy się każdy tydzień, a ile czasu zajęłoby dogadywanie umów?

Ale niektórzy pracownicy Meta dorabiają do tego też jeszcze dodatkowe teorie.

Otóż Yaan LeCun, pracujący na stanowisku Chief AI Scientist w Meta tak napisał 1 stycznia 2024. Komentował informację, że większość autorów książek zarobiła na nich mniej niż 2 tysiące dolarów.

Skoro niewielu autorów zarabia sensowne pieniądze na sprzedaży książek, to… większość powinna być dostępna bezpłatnie do ściągnięcia!

On się potem z tego tłumaczył, że autorom bardziej powinno zależeć na popularności i przyczynieniu się do rozwoju cywilizacji, że przecież wielu naukowców publikuje bezpłatnie swoje prace, że w świecie oprogramowania mamy open source i tak dalej.

No i można z niektórymi tezami się nawet zgodzić, ale co jest najważniejsze? Przecież parę dni później wyszło na jaw, że kierowany przez niego dział wziął sobie książki za darmo bez pytania autorów!

Podsumowanie

Temat piractwa e-booków poruszałem tutaj nieraz, choćby pisząc o mitach dotyczących piractwa, albo o naszych pirackich hipokryzjach.

No i słowo „hipokryzja” tutaj bardzo ładnie pasuje – bo wygląda na to, że jakkolwiek wielcy gracze walczą z naruszeniami praw autorskich, czasami bardzo absurdalnie (na przykład automatycznie blokując filmy na YT), ale gdy gra toczy się o najwyższą stawkę, to sami nie przejmują się przestrzeganiem tych praw.

Źródła: Torrentfreak, Techspot

Podobne wpisy

Tweetnij

Artykuł był przydatny? Jeśli tak, zobacz 6 sposobów, na jakie możesz wspomóc Świat Czytników. Dziękuję!

Ten wpis został opublikowany w kategorii Książki na czytniki i oznaczony tagami Aktualności, Prawo autorskie. Dodaj zakładkę do bezpośredniego odnośnika.

23 odpowiedzi na „O tym jak narzędzia AI masowo korzystają z pirackich e-booków”

Fretka pisze:
18 stycznia 2024 o 10:42
Czyli biedny ma dołożyć się do powstawania AI, na której zarobią bogaci? Ktoś naprawdę chce, by „eat the rich” stało się rzeczywistością a nie metaforą…
24
Odpowiedz
asymon pisze:
18 stycznia 2024 o 11:30
XD
1
Odpowiedz
Darth Artorius pisze:
18 stycznia 2024 o 12:30
Piknie !
„Hej bracia piraci
Czeka Was przygoda
Pewnie się opłaci
I nie będzie szkoda
Hej piraci sława nam !”
(Cytat z piosenki z serialu o Pippi Langstrumpf)
Proponuję zmianę z „piraci” na korsarze (ci bywali legalni) albo bukanierzy (romantycznie)
2
Odpowiedz
Amper pisze:
18 stycznia 2024 o 17:17
Sztuczna inteligencja to najprawdziwszy, cyfrowy Janosik — podbiera wiedzę bogatym i dzieli się nią z biednymi :)
2
Odpowiedz
- Robert Drózd pisze:
  18 stycznia 2024 o 17:39
  A nie że podbiera wiedzę biednym (autorom), a dzieli się z bogatymi (których stać na kupno subskrypcji AI)? :)
  10
  Odpowiedz
  - Amper pisze:
    18 stycznia 2024 o 18:53
    Hmm, możliwe, chociaż akurat tak to robił Robin Hood, który golił z kosztowności biednych podróżujących lasem Sherwood, zaś dziennym utargiem dzielił się z szeryfem z Nottingham w zamian za sfabrykowanie oficjalnej wersji tej legendy :)
    3
    Odpowiedz
system_failure pisze:
18 stycznia 2024 o 18:06
A propos etyki, to ciekawe czy w momencie wyczerpywania się zasobów do nauki w „normalnym” internecie, nie zaczną się one uczyć na zasobach Deep Web’u, czyli na niepodlegającej indeksacji, ukrytej sieci, która jest co najmniej kilkukrotnie większa od sieci powszechnie dostępnej. W tym wyścigu o palmę pierwszeństwa, pokusa dla twórców może być w przyszłości niezwykle silna. A jak wiemy, w biznesie wszystkie chwyty są dozwolone w walce z konkurencją. Pytanie tylko jak to się wtedy odbije na etyce owych modeli? Rywalizacja modeli białych z czarnymi może się stać kiedyś bardzo ciekawym zjawiskiem.
4
Odpowiedz
Moperetka pisze:
18 stycznia 2024 o 18:35
„Skoro niewielu autorów zarabia sensowne pieniądze na sprzedaży książek, to… większość powinna być dostępna bezpłatnie do ściągnięcia!”. Skoro bez dostępu do tych danych nie da się sensownie wytrenować AI, a dane te się spiratowało, czyli ukradło, to w ramach zadośćuczynienia opracowane tak narzędzie powinno być dostępne za darmo do celów niekomercyjnych.
5
Odpowiedz
- Loop pisze:
  18 stycznia 2024 o 19:31
  Czy nie byłoby to wtedy jawne przyzwolenie na paserstwo? Skoro cele niekomercyjne byłyby wyłączone z opłaty, to jasnym jest, że po jej uiszczeniu kwitł by proceder komercyjnego wykorzystania tych danych, bez obawy o pozwy sądowe ze strony pierwotnych autorów.
  2
  Odpowiedz
- Robert Drózd pisze:
  18 stycznia 2024 o 22:33
  Jest w tym trochę racji, bo Open AI był częściowo projektem niekomercyjnym, a w takim przypadku często się patrzy troszkę przez palce na naruszenia. Np. takie Internet Archive byłoby pewnie szybciej zamknięte gdyby pobierali opłaty za dostęp do swojej biblioteki. No, ale Open AI w ostatnim roku zaczął być agresywnie monetyzowany, a Meta czy Google nigdy nie ukrywały że chcą na AI zarabiać.
  2
  Odpowiedz
Darth Artorius pisze:
18 stycznia 2024 o 18:43
A imię ich Skynet ….
2
Odpowiedz
lepszaAInizbrakIQ pisze:
19 stycznia 2024 o 10:12
W zasadzie trudne życie ma ta SI. Do naśladowania niektórych „topowych” autorów prócz próbki wypocin najpierw musiałaby biec do apteki po wazelinę i sprawdzić obowiązujące trendy światopoglądowe – choć niektóre dyżurne tematy może brać w ciemno;)
0
Odpowiedz
- Robert Drózd pisze:
  19 stycznia 2024 o 10:24
  Jeśli „rozmawiałeś” z jakimikolwiek czatami, to wiesz pewnie, że ciężko je zmusić do jakiejkolwiek „niepoprawnej” politycznie wypowiedzi.
  2
  Odpowiedz
  - Mmm pisze:
    19 stycznia 2024 o 15:34
    To tylko te, które są dostępne publicznie bo mają zakładane filtry. Z resztą te, które mamy na zachodzi to jeszcze spoko. Ale chińskie na ichniejszy rynek są bardzo ograniczane. Poczekajmy jednak, gdy rozwinie się hardware na tyle by postawić sobie to na jakimś lepszym PC a nie superkomputerach i wtedy każdy będzie mógł sobie postawić takie AI bez żadnych filtrów…
    0
    Odpowiedz
    - Robert Drózd pisze:
      19 stycznia 2024 o 17:44
      Zuckerberg ujawnił niedawno, że do trenowania ich modelu llama3 używają 350 tysięcy (!) procesorów graficznych Nvidia H100. To podobno wartość ok. 20 mld dolarów. W domu na mniejszej ilości danych trenować modele można już teraz, ale rozmach korporacji jest niewyobrażalny.
      2
      Odpowiedz
      - asymon pisze:
        19 stycznia 2024 o 19:23
        No to czekamy, aż ktoś zbuduje projekt podobny do Folding@home.
        …a jak będą wyniki, korpo to „sprywatyzują”.
        0
        Odpowiedz
      - Mmm pisze:
        19 stycznia 2024 o 20:38
        Jak chodziłem na studia to był sobie super komputer (zbudowany na pentiumach pro) za nieosiągalne dla „zwykłego” człowieka pieniądze. Puścili na nim kiedyś także dostępne obliczenia rozproszone np. Seti@Home. Na początku pandemii jeden AMD ThreadRipper osiągnął połowę wydajności tego super komputera w obkuczeniach Seti@Home.
        Wiadomo,że nie stanie się to za rok lub dwa. Ale czy kiedyś taki akcelarator AI będzie dostępny za pieniądze, na które sobie pozwoli przeciętna firma? Zwłaszcza, że trening jest najbardziej obciążający a pojedyncze zapytania mniej.
        0
        Odpowiedz
Mmm pisze:
19 stycznia 2024 o 15:31
Po prostu wielkie koncerny chcą tego samego od autorów książek co dostały od programistów, jakichś odpowiedników open source. Zarówno jako narzędzia do pracy (choćby szeroko pojęty Linux i mnóstwo narzędzi) jak i materiałów do uczenia (kod na GitHub). Do dobrego szybko się człowiek przyzwyczaja.
1
Odpowiedz
asymon pisze:
21 stycznia 2024 o 19:32
No dobra, kazałem Copilotowi wygenerować okładki do paru książek w oparciu o fabułę i widać że nie czytał…
1 2 3 4
1
Odpowiedz
- asymon pisze:
  21 stycznia 2024 o 19:42
  ….ale do „Jonathana Strange” wyszło nawet spoko
  1 2 3 4.
  Silnik to Dall-E 3
  1
  Odpowiedz
- Fretka pisze:
  22 stycznia 2024 o 11:20
  Nie no, czemu, jak moje oko oddaje ten dziwny świat/nieświat.
  0
  Odpowiedz
kondrart pisze:
19 lutego 2024 o 12:46
1 Czy mogę do uczenia swojego I (MyI) użyć pirackich książek? Czemu ja mam być traktowany gorzej od robota?
2 Ponieważ treściotok generowany przez AI jest znacznie większy niż treści pisane przez normalnych twórców – wkrótce AI będą w większości uczyć się na treściach wygenerowanych przez AI. Czyli układ błyskawicznie się zapętli. Czy od tego zgłupieje?
1
Odpowiedz
- mjm pisze:
  19 lutego 2024 o 19:29
  Ad 1.
  Możesz. I nawet nie złamiesz przy tym żadnego prawa, zabronione jest udostępnianie treści, nie ściąganie.
  0
  Odpowiedz

Dodaj komentarz Anuluj pisanie odpowiedzi

Komentarze do tego artykułu można śledzić także w formacie RSS.

Oxygon on Kindle 11 już u mnie jest – oto moje pierwsze wrażenia (i wstępna konfiguracja): “Między opinią a instrukcją obsługi jest duża różnica. Nic się nie dowiedziałem…. Ale po komentarzach widzę, że niektórym się podobało.”

SStefania on Zaczytani 2025! Wielka promocja noworoczna Ebookpoint i tysiące książek od 6,90 zł!: “Musiałam trochę zaczekać i odświeżyć, bo w pewnym momencie pokazywało tylko procent zniżek, ale cen nie, a teraz już wszystko…”

wrc on 11 mało znanych funkcji Kindle. A wszystkie mogą ułatwić nam życie: “Szukam podpowiedzi, po edycji metadanych w Siglu i wysłaniu na Kobo, nie rozpoznaje kolekcji i numeru pozycji. Czy wiecie dlaczego…”

klm on PDW (chyba) się dogaduje, z kolei Virtualo wypowiada umowę Legimi! [Aktualizacja x2]: “To nie tak się robi. Miałeś napisać „kuzynka ma umowę”.”

klm on PDW (chyba) się dogaduje, z kolei Virtualo wypowiada umowę Legimi! [Aktualizacja x2]: “A Legimi dalej twierdzi, że umowy z bankami to forma „biblioteki zakładowej”. Ja tu widzę innego winnego.”

O tym jak narzędzia AI masowo korzystają z pirackich e-booków

Piraci wytrenują sztuczną inteligencję?

Co, jeśli nie chcesz trenować modelu na pirackich danych?

Autorzy, publikujcie za darmo?

Podsumowanie

Podobne wpisy

23 odpowiedzi na „O tym jak narzędzia AI masowo korzystają z pirackich e-booków”

Dodaj komentarz Anuluj pisanie odpowiedzi

Szukaj na blogu

Przewodniki

Legimi

Kindle z Amazon.pl

Kindle z Amazon.de

Popularne artykuły

Dziś w Ebookpoint

Gdzie kupisz e-booki?

Promocje z Kindle Store

Nasz serwer

Śledź wpisy w serwisie

Informacja o cookies

Stopka redakcyjna

Wspieraj serwis

Ostatnie komentarze

O tym jak narzędzia AI masowo korzystają z pirackich e-booków

Piraci wytrenują sztuczną inteligencję?

Co, jeśli nie chcesz trenować modelu na pirackich danych?

Autorzy, publikujcie za darmo?

Podsumowanie

Podobne wpisy

23 odpowiedzi na „O tym jak narzędzia AI masowo korzystają z pirackich e-booków”

Dodaj komentarz Anuluj pisanie odpowiedzi

Śledź nowości

Szukaj na blogu

Przewodniki

Legimi

Kindle z Amazon.pl

Kindle z Amazon.de

Popularne artykuły

Dziś w Ebookpoint

Gdzie kupisz e-booki?

Promocje z Kindle Store

Nasz serwer