Napisał do mnie Michał Rudewicz, który przygotował przydatne narzędzie do ściągania książek z Polskiej Biblioteki Internetowej. Możemy je zapisać w formatach HTML albo EPUB
Kilka słów wprowadzenia. Polska Biblioteka Internetowa (PBI) zawiera kilka tysięcy polskich książek w domenie publicznej, niestety tylko w postaci do przeglądania online. Sam serwis nie jest rozwijany od paru lat, o czym kiedyś wspominałem, zwracając uwagę na krytyczny raport NIK. Jednak w oparciu o zasoby PBI powstało wiele e-booków, które kupimy za symboliczne kwoty w księgarniach, jak też ściągniemy z np. opisywanego już bardzo dawno serwisu Bookini.
Możemy jednak takiego e-booka zrobić sobie sami.
Program Klient PBI jest napisany w Javie i działa w bardzo prosty sposób. Po uruchomieniu mamy możliwość przeszukiwania Biblioteki po autorze i tytule.
Wybrany tytuł klikamy dwukrotnie i zaczynamy go ściągać.
Po ściągnięciu mamy podgląd, wybieramy metodę łączenia stron, możemy też zmienić tytuł i autora.
Potem pozostaje tylko zapisanie w wybranym formacie – HTML albo EPUB. Ten ostatni da się skonwertować do MOBI przy pomocy Calibre.
Kilka uwag od autora:
Przewidziałem 4 opcje sklejania stron: brak poprawek, optymalizacja dla wierszy, tryb standardowy i tryb z usuwaniem przenoszenia wyrazów. Ten ostatni jak na razie nie jest zaimplementowany i działa jak standardowy, bo jak na razie nie trafiłem na książkę, w której taka operacja byłaby konieczna.
Samo składanie tekstu z PBI nie jest trywialne, bo niektóre książki są serwowane czymś, co nawet nie jest poprawnych HTMLem, w jakiejkolwiek wersji. Dlatego nie jestem w stanie gwarantować sukcesu przy każdej książce.
Dlatego wszystkich potencjalnych użytkowników prosiłbym z jednej strony o zwyczajne uwagi na temat problemów z działaniem aplikacji, zgłaszanie wszelkich błędów w generowanych plikach i w marę możliwości walidację poprawności tych plików na http://validator.idpf.org/.
Dla porządku wspomnę, że było już kilka podobnych narzędzi – odsyłam do wątku na forum eksiazki.org – m.in. t3d napisał skrypt sciagnijpbi, uruchamiany w powłoce bash.
Czytaj dalej:
- Ostatni dzień na pobranie książek ze „starego” ArtRage. Jak ściągnąć je wszystkie?
- Przetłumacz sobie e-booka! Wtyczka Ebook Translator do Calibre używa ChatGPT, DeepL lub Google i radzi sobie bardzo dobrze
- Chocolatey – czyli jak automatycznie aktualizować takie programy jak Calibre czy Sigil?
- Bionic Reading – rewolucyjna metoda szybkiego czytania czy ściema? Możemy to sprawdzić na czytnikach!
- Dzień Domeny Publicznej 2024: Tuwim, Makuszyński i Gałczyński wreszcie uwolnieni! A czy przeczytamy ich na czytnikach?
- Biblioteczka paryskiej „Kultury” i setki cennych, a bezpłatnych książek w formacie PDF!
Hm. Już miałem marudzić, że PBI wogóle zdechło, ale wygląda na to że padłem ofiarą awarii vectry :(
Nie mam Vectry, ale też nie mogę wejść na stronę PBI :<
Na razie bookmarkuję wpis, bo jest relewantny do moich zainteresowań, kupiłam czytnik między innymi dlatego, żeby nadgonić klasykę :3
Rele- co?
Jak będziesz więcej bookmarkować wpisy, to zrozumiesz co to jest rele – kurcze – wantny! No więc „IMHO” – w tym wypadku nadgodnienie klasyki jak najbardziej wskazane.
Kolega abstrahuje od tematu (i proszę mnie nie pytać, co to jest abstra).
http://pbi.edu.pl/ strona nie jest dostępna, czyżby DDOS
Strona nie jest dostępna, więc nie ma jak sprawdzić
Wrzuciłem nową wersję z drobnymi poprawkami. U mnie z domu i z pracy PBI działa.
Mam drobną uwagę: przydałoby się, żeby program przy zapisywaniu pliku automatycznie wyrzucał z nazwy niedozwolone znaki (najczęściej zdarza się chyba dwukropek), albo przynajmniej ostrzegał, bo efekt nie jest ciekawy.
U mnie link z „kiedyś wspominałem” nie przenosi do artykułu z kontroli NIK, ale do promocji na wydawnictwo REBIS (wpis z 2012 r.).
A czy przypadkiem BN Polona http://www.polona.pl/ nie przejela roli PBI?
pbi nie „zdechło” – za to serwery i wpisy w dns-ie (pewnie ze względu na brak „piniędzy” i „komu robić”) poszły sobie w… i w związku z tym poprzez wielu dostawców nie dostaniecie się na pbi.edu.pl.
Jak tak dalej pójdzie to pbi zniknie całkowicie więc radzę ściągać…
Na razie lekiem na dns-y jest wchodzenie na pbi bezpośrednio poprzez aktualny ip:
http://91.238.85.34/
a dla poszczególnych pozycji zamianę pbi,gov.pl na 91.238.85.34 , np:
http://91.238.85.34/book_reader.php?p=1905&s=1
Autorowi proponuje zrobić to samo, albowiem duża część internautów nie będzie mogła skorzystać z jego programu, na razie można wpisać w konfiguracji programu http://91.238.85.34/
Ponieważ wiele osób skarży się na brak dostępu do PBI jeden z użytkowników zasugerował wpisanie z konfiguracji bezpośrednio adresu IP serwera zamiast nazwy domenowej:
http://91.238.85.34/
Rozwiązanie to jest przetestowane i działa bez problemów.
Pod adresem Bookini.pl jest obecnie ebook.pl :(