Za drogo? Ustaw alerty cenowe na e-booki i kupuj taniej!

Potrzebujesz skanu starszej książki? Biblioteka Narodowa wykona go nieodpłatnie!

Biblioteka Narodowa uruchomiła dziś nową usługę: Digitalizacja na życzenie.

Jak podają na swojej stronie:

Biblioteka Narodowa zachęca wszystkich zainteresowanych do zgłaszania sugestii digitalizacji potrzebnych im materiałów – zarówno do codziennej pracy, nauki, jak i do celów hobbystycznych. BN wykonuje usługę nieodpłatnie.

Zdigitalizowane w ten sposób książki będą opublikowane w serwisie Polona (warto przy okazji sprawdzić czy już jej tam nie ma).

Jak zgłosić książkę do opracowania? Wypełniamy formularz, podając tytuł książki i sygnaturę z katalogu głównego BN.

Oczywiście są ograniczenia:

  • Książka musi być w domenie publicznej (co oznacza że jej autorzy i ew. tłumacze zmarli wcześniej niż 70 lat temu) lub udostępniona na wolnej licencji.
  • Książka musi być w zasobach BN i bibliotek współpracujących.
  • No i dostaniemy zapewne skan w postaci PDF i plików graficznych – czyli nie ma mowy o wersji na czytniki – ale to i tak ważny punkt wyjścia do dalszych prac.

Parę lat temu był tu artykuł gościnny Jarka Lipszyca z Wolnych Lektur: ile kosztuje digitalizacja książki. Spora część kosztów i czasu to wykonanie porządnego skanu. Tymczasem Biblioteka Narodowa ma największe centrum digitalizacyjne w Polsce i dysponuje 27 skanerami. Na filmie można zobaczyć, jak to wygląda.

Myślę że ucieszą się tutaj szczególnie ludzie pracujący naukowo, ale i takie społeczności jak Wikiźródła – pracują oni na skanach książek, które ktoś musi wcześniej zrobić.

Podsumowując – nie jest to zapewne usługa, z której skorzysta każdy – ale jeśli potrzebujemy starszej książki, której nie ma w formie elektronicznej, warto się do BN zgłosić. Wierzę, że w ten sposób do zasobów publicznych trafi sporo potrzebnych i poszukiwanych tekstów.

PS. Swoją drogą, jestem pod wrażeniem, jak dużo materiałów archiwalnych znaleźć można w Polonie. Dawno temu na studiach pisałem pracę o ministrze skarbu z II RP, Gabrielu Czechowiczu (sporą jej część opublikowałem na Wikipedii) i pomyślałem teraz – a co tam, złożę wniosek o kilka tekstów – np. książek i przemówień Czechowicza, z których wtedy korzystałem. No i jak widzę, wniosku składać nie trzeba, bo prawie wszystko już jest.

PS2. Przypomnę, że wciąż czynna jest National Emergency Library czyli inicjatywa amerykańskiego Internet Archive. Znajdziemy tam 1,3 mln skanów z amerykańskich bibliotek i nie tylko z domeny publicznej.

Autor zdjęcia: Wistula / CC BY.

Czytaj dalej:

Artykuł był przydatny? Jeśli tak, zobacz 6 sposobów, na jakie możesz wspomóc Świat Czytników. Dziękuję!

Ten wpis został opublikowany w kategorii Książki na czytniki i oznaczony tagami . Dodaj zakładkę do bezpośredniego odnośnika.
Hosting: Zenbox

37 odpowiedzi na „Potrzebujesz skanu starszej książki? Biblioteka Narodowa wykona go nieodpłatnie!

  1. temp pisze:

    Dawno temu, z zapartym tchem, czytałem korespondencję telegraficzną Stalin-Churchill-Roosevelt w czasie II WS. Ciekawe, czy minął okres ochronny. Nie wiem jak brzmi tytuł. Zupełnie inny obraz problemów. Przeczytałbym jeszcze raz.

    3
  2. Artur Duleba pisze:

    Odnosnie tych milionow skanow we wspomnianej amerykanskiej bibliotece, to nie sa one wykonane wspaniale jakosciowo, ale mozna te ksiazki przeszukiwac, bo maja wykonane optyczne rozpoznawanie tekstu i mozna rowniez ten tekst kopiowac, wiec latwo znajdowac i uzywac do swoich roznych potrzeb (lacznie z tlumaczeniem).
    W przeciwienstwie do tego naprawde „najmadrzejsze” polskie wydawnictwo (PWN) wydajace zupelnie niewiele w porownaniu z tymi milionami ksiazek, nawet tworzac wydanie elektroniczne starych ksiazek, nie wykonuje rozpoznawania tekstu.
    Spytalem ich przykladowo o to, dlaczego „dzisiaj” wydawane skany starych Podstaw Konstukcji Maszyn pod redakcja Marka Dietricha nie maja rozpoznawania tekstu i otrzymalem odpowiedz, ze jest tam zbyt duzo rysunkow i tabel. Pomijam absurd, ze wydawnictwo nie ma zrodla tego co kiedys wydalo w formacie tekstowym, bo to moze wynikac z zacofania autorow i starej technologii, ale chodzi o rozpoznawanie tekstu do przeszukania, jak to ma miejsce w madrych publikacjach, a nie zastepowanie liczb w tabelach.
    Potem ktos madrze zauwaza, ze nasza standardowa nauka i edukacja sa na stosunkowo slabym poziomie. Ludzie na swiecie niczym sie nie roznia, ale znaczenie maja sposob i jakosc podawania wiedzy. U nas jest zle. Idioci zrozumieja to jako „hejt”, ale moze ktos zauwazy problem i cos kiedys zmieni. Wciaz mam nadzieje.

    3
    • Robert Drózd pisze:

      To prawda, że wiele takich publikacji robi się u nas po taniości. Rozpoznawanie tekstu i dodatkowa warstwa tekstowa w skanowanych PDF to powinny być opcje z automatu, nawet jeśli nie jest to 100% wierne, to ułatwia dostępność takiego tekstu. Tak jest zresztą w Internet Archive.

      Co do wydawnictw naukowych, dla mnie przykładem podejścia „po taniości” jest brak aparatu naukowego w wielu publikacjach. Zadziwiało mnie zawsze to, że bardzo nędznych książkach marketingowych ze Stanów znajdę np. indeks rzeczowy i osobowy, a w wielu podręcznikach z polskich wydawnictw akademickich czegoś takiego nie ma.

      4
      • Bq pisze:

        To chyba wszedzie w postkomunistycznych krajach jest. Kupilem wlasnie przepieknie wydana „Russia’s Quisine. Traditions and Morednity” – ciezkie tomiszcze, luksus bijacy w oczy, skorzana oprawa mistrzostwo edytorskie i genialne przepisy oraz opowiesci o kuchniach Rosji – cena tez spora ale warto (700 pln). nie ma indeksu – a spis tresci bardzo ogolny.

        1
  3. h. pisze:

    Jak znam życie, to teraz wg wolnych lektur znacznie wzrosną koszty jakiegoś innego elementu procesu digitalizacji. Sorry, ale jak dla mnie jest to zbyt podobne do biadolenia wydawców na koszty druku :)

    2
  4. Robert Drózd pisze:

    PS. Wrzuciłem na Wykop: https://www.wykop.pl/link/5494991/potrzebujesz-skanu-starszej-ksiazki-biblioteka-narodowa-go-zrobi/ – jak ktoś ma konto, poproszę o plusik. :)

    8
  5. Artur Duleba pisze:

    „Dawno temu na studiach pisałem pracę o ministrze skarbu z II RP, Gabrielu Czechowiczu…”
    „Był jedynym polskim politykiem okresu międzywojennego postawionym przed Trybunałem Stanu”
    Dawno temu, czyli proby wizjonerskie o mozliwej, stosunkowo bliskiej przyszlosci politycznej w naszej pieknej krainie :D

    2
  6. asymon pisze:

    Jakby co, znalazłem sposób na darmowy OCR :-) Google umożliwia otwieranie jako dokument plików (zdjęć) przesłanych na dysk Google. Klikamy prawym przyciskiem myszy i wybieramy „Otwórz jako dokument Google”.

    I teraz najlepsze: można to oskryptowac i zautomatyzować. Problem tylko w tym, że jeden skrypt Google ma limit czasu wykonywania 6 minut, co w praktyce pozwala na przerobienie kilkunastu stron na raz. Potem trzeba te strony połączyć, ale jest do tego gotowy skrypt.

    Jakość jest dobra, ale i tak trzeba to potem trochę poprawiać.

    6
    • SkromnyChwaliciel pisze:

      Panie, a po co takie cuda na kiju? Pod linuksem masz darmowe OCR dzialajace w shellu z wbudowanymi slownikami w stu jezykach, ostatnio parsowalem wiele PDF-ow i dzialaly bezblednie.

      Skrypt do parsowania setek plikow zawieral 4 linijki.

      2
      • Artur Duleba pisze:

        Probowalem sie takimi narzedziami bawic okolo 15 lat temu i byl „dramat” w porownaniu do Finereadera. W przypadku polskich ksiazek nie bylo zadnych szans. Jesli dziala teraz dobrze, to napisz tutaj jakies sciezki, slowa kluczowe do szukania tematu lub „wklej” dzialajacy skrypt.

        0
        • Robert Drózd pisze:

          Efekty są prawdopodobnie takie jak w przypadku Internet Archive, gdzie wersja tekstowa skanów jest i nawet można EPUB pobrać, ale często się to do niczego nie nadaje. Na swoje potrzeby mam Finereadera sprzed jakoś 10 lat i bym też radził poszukać nawet jakiejś używki jeśli ktoś ma potrzeby obrabiania skanów.

          2
          • SkromnyChwaliciel pisze:

            Panie Robercie,

            najpierw wyprobowac, pozniej komentowac!

            Wlasnie doczytalem, ze program, ktorego uzywalem, jest aktualnie rozwijany przez googla. Wiec bardzo mozliwe, ze kladzie Finereadera na lopatki i w dodatku jedna reka.

            1
          • Lifter pisze:

            Takoz mam starego jak swiat Finereadera (choc mlodszego niz Photosop z 1996 :) i radzi sobie genialnie. Nie „idealne” ale wystarczajaco dobrze bym sam sobie zrobil e-wersje paru ulubionych starych ksiazek, ktore nie maja e-wydan. Oczywiscie trzeba bylo ze 2-3 godziny posiedziec i poczysic tekst (ale 80% odwalały za mnie proste skrypty w Wordzie, czy opcja „znajdź i zamień) ale – bylo warto.

            1
          • Artur Duleba pisze:

            Teraz zauwazylem, ze we wspomnianym „Internet Archive” przy publikacjach „zawsze dostepnych” sa opisy typu „Ocr: ABBYY FineReader 9.0”, wiec pewnie oni to robia automatycznie wlasnie tym swietnym programem, a w ciezkich przypadkach to bez kontroli ludzi nie jest perfekcyjne. Ale to najlepszy wybor. Lepiej miec wszystko bez perfekcji niz 5% tego prawie perfekcyjnie.

            1
        • SkromnyChwaliciel pisze:

          Ja uzywalem „tesseract”, jak widac caly czas aktywnie rozwijany. Mialem PDF ze skanami (jezyk nie byl polski, ale tez nie angielski) i program zadzialal w 99% bezblednie. Nie trzeba recznie kompilowac, Ubuntu ma go w repozytorium i pewnie inne dystrybucje tez.

          https://github.com/tesseract-ocr/tesseract

          Najprostsze uruchomienie: tesseract file.jpg file.txt

          3
          • asymon pisze:

            O, panie, zaoszczędziłeś mi dwa dni klikania :-) Dzięki!

            Kiedyś tesseract był nieprzydatny, bo nie obsługiwał polskiego. Zdaje się że Google go wykupiło i zastosowali te sieci neuronowe, co je mieli zastosować, i wersja 4.0 to już jest coś, czego da się używać.

            Nie interesowałem się OCR ostatnio, bo mam co czytać, ale właśnie niedawno z nadmiaru czasu siadłem do przerabiania Kopernika na ebooki, to mi lekko ułatwi sprawę.

            1
          • Artur Duleba pisze:

            Rowniez dziekuje :)

            0
      • asymon pisze:

        O, jaki konkretnie program masz na myśli? Znam fajne narzędzia, ale do konwertowania „prawdziwych” pdf, nie skanów, np. poppler.

        Wspominam o tym, bo więcej ludzi ma smartfona z dostępem do dysku Google, niż linuksa.

        0
    • Robert Drózd pisze:

      Jak znam życie, na githubie są już do tego skrypty. :)

      1
      • asymon pisze:

        Skrypt oczywiście pożyczony, tyle że że stackoverflow ztcp. Skrypt do łączenia jest jakąś gotową appką używająca google API, w sumie nie wiem komu dałem dostęp do dysku ;-)

        0
    • Artur Duleba pisze:

      Czy mozesz tu wrzucic wspomniane skrypty lub odnosniki do nich, zeby w razie potrzeby nie tworzyc kola na nowo? :)

      0
  7. Nazwa pisze:

    70 lat…rozumiem, że autor ma prawo do zysków, rodzina do praw, ale 70 lat po śmierci ? Kto niby ma z tego korzystać ? Na takiej zasadzie to przy tym samym prawie dalej byśmy byli w epoce kamienia, no może żelaza ;) Trzeba rozróżnić zysk ze sprzedaży od korzystania w ramach biblioteki, przecież to nie pójdzie jako skan na sprzedaż.
    Ps Ten okres 70 lat to kolejne wydłużenie po niezłej działalności i mocnym lobbingu zainteresowanych, a kto po śmierci ma prawa dzieci, wnuki, prawnuki, wydawnictwa etc.

    1
    • Robert Drózd pisze:

      Zgadza się, było o tym mówione wiele razy jak omawiałem Dzień Domeny Publicznej. Takie prawo na całym świecie wylobbowały sobie koncerny, choćby Disney. Najbardziej na tym cierpią mniej znane utwory, których za kasę nikt nie będzie wznawiał.

      1
    • Artur Duleba pisze:

      „… a kto po śmierci ma prawa dzieci, wnuki, prawnuki…”
      Akurat to jest madre, bo moze autor nie mial czasu zadbac o ich start i nalezy sie cos od niego, skoro dzieki temu osiagnal sukces. Zostawia ukochanym lub nienawidzonym bliskim z rodziny cos po sobie. Analogicznie do sytuacji, gdy biznesmen (zarowno ten od „malego” Polsatu jak i od „duzego” VW) nie ma czasu na zstepnych, ale zostaje im po nim firma.
      Chociaz oczywiscie blokuje to szanse na literature, ktora w swoim czasie nie jest popularna, mimo swietnej jakosci, bo moze zostac zapomniana ze wzgledu na brak licencji.

      0
    • Doman pisze:

      Nie chcę bronić akurat 70 lat, czy innej konkretnej liczby, ale nie da się zaprzeczyć, że
      1. Prawie każdy rodzic stara się zapewnić możliwie dobrą przyszłość potomkom: jeden zostawi skrzynię pieniędzy, drugi dom, trzeci firmę która zbudował, a jeden przynajmniej jakąś własność intelektualną, z której jeszcze przez ieś lat można coś wyciągnąć.
      2. Nawet jak jako artysta sprzedajesz prawa tej złej korporacji, to mimo wszystko będzie ona skłonna zapłacić tym więcej im dłużej będzie je mogła potem potencjalnie doić.

      Więc jakiś interes twórców też w tym jest.

      0
      • asymon pisze:

        70 lat po twojej śmierci statystycznie twoje wnuki są już martwe ;-)

        Prosty model: żyjesz 75 lat (lekko powyżej średniej dla mężczyzny), masz dzieci w wieku 30 lat.

        Załóżmy, że urodziłeś się w 1900 roku. W wieku 30 lat urodziło ci się pierwsze dziecko. Doczekałeś urodzenia wnuka, jego rodzice (w tym twoje dziecko) też mieli je w wieku 30 lat. Ty masz teraz 60, właśnie wydałeś pamiętniki.

        Gdy umierasz w wieku 75, rok 1975, zaczyna bić kopyrajt-licznik, twoje dziecko ma 45 lat, wnuk 15.

        W roku 2000 (licznik pokazuje 25) twoje dziecko ma 70 lat, twój wnuk 40, prawnuk 10.

        W roku 2025 (licznik pokazuje 50) twoje dziecko miałoby 95 (ale od 20 lat nie żyje), twój wnuk ma 65, prawnuk 35, praprawnuk 5.

        W roku 2045 (licznik pokazuje 70) twój wnuk miałby 85 lat (ale nie żyje), prawnuk 55 lat, praprawnuk 25. Od 10 lat z praw korzystają ludzie których na oczy nie widziałeś.

        3
        • Artur Duleba pisze:

          Statystyka nigdy nie broni najmadrzejszych, najglupszych, najsilniejszych czy najslabszych, a takie prawo ma tym ostatnim wlasnie pomoc, bo czasem oni maja wiekszy potencjal niz statystyczna wiekszosc spoleczenstwa :)
          Mam male dzieci. Gdy umre dzisiaj, a moje dzieci beda mialy dzieci tak pozno jak ja, to 70 lat po mojej smierci moje wnuki beda mialy 20-30 lat :), a moze wciaz bedzie zyc moja kobieta z moimi dziecmi :D
          Ale oczywiscie tak jak pisalismy to temat trudny i dlatego o nim wszyscy razem mowilismy, bo tylko prosci ludzie nie zauwazyliby komplikacji.

          0
  8. vvaz pisze:

    Mój skrypt bazujący na teeseract:

    https://github.com/vvizzo/ocrtess

    Szersze wyjaśnienie jak korzystać :

    https://wqwtf.wordpress.com/2020/03/25/ocr-z-tesseract/

    5
  9. Nadroj pisze:

    W pełni się z Panami zgadzam może trzeba stworzyć czarną listę cyfrowych bibliotek, które udają że udostępniają wartościowe skany czasopism i książek. Na pierwsze miejsce nominuję Bibliotekę Cyfrową Uniwersytetu Wrocławskiego, gdzie udostępniono „Górnoślązaka” bez możliwości rozpoznawania tekstu. Pieniądze wyrzucone w błoto. https://bibliotekacyfrowa.pl/dlibra/publication/2365/edition/3984/content

    2
    • Artur Duleba pisze:

      Mysle, ze tu akurat nie ma sensu odrozniac kto jest na pierwszym niechlubnym miejscu :)
      Mam zwyczajnie wrazenie, jakby u nas w kraju szczytem honoru bylo zablokowanie mozliwosci latwego uzycia czegokolwiek. Pamietam, ze wiele razy podczas roznych studiow mielismy za zadanie wykonanie analizy jakichs danych i glownym (oczywiscie absurdalnym) zajeciem bylo wklepanie tych danych z kartki do pliku tekstowego :)
      Wciaz wielu ludzi kocha u nas zamordyzm i prace dla pracy, zamiast drogi po linii najmniejszego oporu, ktora polepsza miejsce w rankingu rozwoju danej spolecznosci.
      Uproszczenie jezyka angielskiego dalo powazny zysk krajom w ktorych jest uzywany, a u nas byloby to nie do pomyslenia, bo mamy inne rodzaje zabetonowania. Jest mniej zmiennie, ale wtedy znacznie mniej rozwojowo i bardziej niewolniczo oraz biedniej.

      1

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

Przed dodaniem komentarza zapoznaj się proszę z zasadami komentowania i polityką prywatności

Komentarze do tego artykułu można śledzić także w formacie RSS.