Biblioteka Narodowa uruchomiła dziś nową usługę: Digitalizacja na życzenie.
Jak podają na swojej stronie:
Biblioteka Narodowa zachęca wszystkich zainteresowanych do zgłaszania sugestii digitalizacji potrzebnych im materiałów – zarówno do codziennej pracy, nauki, jak i do celów hobbystycznych. BN wykonuje usługę nieodpłatnie.
Zdigitalizowane w ten sposób książki będą opublikowane w serwisie Polona (warto przy okazji sprawdzić czy już jej tam nie ma).
Jak zgłosić książkę do opracowania? Wypełniamy formularz, podając tytuł książki i sygnaturę z katalogu głównego BN.
Oczywiście są ograniczenia:
- Książka musi być w domenie publicznej (co oznacza że jej autorzy i ew. tłumacze zmarli wcześniej niż 70 lat temu) lub udostępniona na wolnej licencji.
- Książka musi być w zasobach BN i bibliotek współpracujących.
- No i dostaniemy zapewne skan w postaci PDF i plików graficznych – czyli nie ma mowy o wersji na czytniki – ale to i tak ważny punkt wyjścia do dalszych prac.
Parę lat temu był tu artykuł gościnny Jarka Lipszyca z Wolnych Lektur: ile kosztuje digitalizacja książki. Spora część kosztów i czasu to wykonanie porządnego skanu. Tymczasem Biblioteka Narodowa ma największe centrum digitalizacyjne w Polsce i dysponuje 27 skanerami. Na filmie można zobaczyć, jak to wygląda.
Myślę że ucieszą się tutaj szczególnie ludzie pracujący naukowo, ale i takie społeczności jak Wikiźródła – pracują oni na skanach książek, które ktoś musi wcześniej zrobić.
Podsumowując – nie jest to zapewne usługa, z której skorzysta każdy – ale jeśli potrzebujemy starszej książki, której nie ma w formie elektronicznej, warto się do BN zgłosić. Wierzę, że w ten sposób do zasobów publicznych trafi sporo potrzebnych i poszukiwanych tekstów.
PS. Swoją drogą, jestem pod wrażeniem, jak dużo materiałów archiwalnych znaleźć można w Polonie. Dawno temu na studiach pisałem pracę o ministrze skarbu z II RP, Gabrielu Czechowiczu (sporą jej część opublikowałem na Wikipedii) i pomyślałem teraz – a co tam, złożę wniosek o kilka tekstów – np. książek i przemówień Czechowicza, z których wtedy korzystałem. No i jak widzę, wniosku składać nie trzeba, bo prawie wszystko już jest.
PS2. Przypomnę, że wciąż czynna jest National Emergency Library czyli inicjatywa amerykańskiego Internet Archive. Znajdziemy tam 1,3 mln skanów z amerykańskich bibliotek i nie tylko z domeny publicznej.
Autor zdjęcia: Wistula / CC BY.
Czytaj dalej:
- Biblioteka Narodowa ma dla nas bezpłatnie 8 utworów Stanisława Lema na czytniki!
- National Emergency Library: Internet Archive otwiera do 30 czerwca ogromną bibliotekę z 1,4 mln e-booków (są i polskie)
- Niemal cała twórczość Adama Zagajewskiego do pobrania bezpłatnie z Polona.pl!
- National Emergency Library: autorzy protestują przeciwko piractwu. Jak naciągnięto koncepcję „kontrolowanego wypożyczenia”?
- E-booki z serii „Biblioteka Narodowa” do pobrania bezpłatnie ze strony Ossolineum!
- Internet Archive nadal umożliwia wypożyczanie e-booków – 2,3 mln tytułów dostępnych na godzinę lub 14 dni
Dawno temu, z zapartym tchem, czytałem korespondencję telegraficzną Stalin-Churchill-Roosevelt w czasie II WS. Ciekawe, czy minął okres ochronny. Nie wiem jak brzmi tytuł. Zupełnie inny obraz problemów. Przeczytałbym jeszcze raz.
To?
http://otworzksiazke.pl/images/ksiazki/dramatyczne_szesc_miesiecy/dramatyczne_szesc_miesiecy.pdf
(rd: poprawiłem link)
Super, Podziękował (i Polał, jak się trafi XD).
Odnosnie tych milionow skanow we wspomnianej amerykanskiej bibliotece, to nie sa one wykonane wspaniale jakosciowo, ale mozna te ksiazki przeszukiwac, bo maja wykonane optyczne rozpoznawanie tekstu i mozna rowniez ten tekst kopiowac, wiec latwo znajdowac i uzywac do swoich roznych potrzeb (lacznie z tlumaczeniem).
W przeciwienstwie do tego naprawde „najmadrzejsze” polskie wydawnictwo (PWN) wydajace zupelnie niewiele w porownaniu z tymi milionami ksiazek, nawet tworzac wydanie elektroniczne starych ksiazek, nie wykonuje rozpoznawania tekstu.
Spytalem ich przykladowo o to, dlaczego „dzisiaj” wydawane skany starych Podstaw Konstukcji Maszyn pod redakcja Marka Dietricha nie maja rozpoznawania tekstu i otrzymalem odpowiedz, ze jest tam zbyt duzo rysunkow i tabel. Pomijam absurd, ze wydawnictwo nie ma zrodla tego co kiedys wydalo w formacie tekstowym, bo to moze wynikac z zacofania autorow i starej technologii, ale chodzi o rozpoznawanie tekstu do przeszukania, jak to ma miejsce w madrych publikacjach, a nie zastepowanie liczb w tabelach.
Potem ktos madrze zauwaza, ze nasza standardowa nauka i edukacja sa na stosunkowo slabym poziomie. Ludzie na swiecie niczym sie nie roznia, ale znaczenie maja sposob i jakosc podawania wiedzy. U nas jest zle. Idioci zrozumieja to jako „hejt”, ale moze ktos zauwazy problem i cos kiedys zmieni. Wciaz mam nadzieje.
To prawda, że wiele takich publikacji robi się u nas po taniości. Rozpoznawanie tekstu i dodatkowa warstwa tekstowa w skanowanych PDF to powinny być opcje z automatu, nawet jeśli nie jest to 100% wierne, to ułatwia dostępność takiego tekstu. Tak jest zresztą w Internet Archive.
Co do wydawnictw naukowych, dla mnie przykładem podejścia „po taniości” jest brak aparatu naukowego w wielu publikacjach. Zadziwiało mnie zawsze to, że bardzo nędznych książkach marketingowych ze Stanów znajdę np. indeks rzeczowy i osobowy, a w wielu podręcznikach z polskich wydawnictw akademickich czegoś takiego nie ma.
To chyba wszedzie w postkomunistycznych krajach jest. Kupilem wlasnie przepieknie wydana „Russia’s Quisine. Traditions and Morednity” – ciezkie tomiszcze, luksus bijacy w oczy, skorzana oprawa mistrzostwo edytorskie i genialne przepisy oraz opowiesci o kuchniach Rosji – cena tez spora ale warto (700 pln). nie ma indeksu – a spis tresci bardzo ogolny.
Jak znam życie, to teraz wg wolnych lektur znacznie wzrosną koszty jakiegoś innego elementu procesu digitalizacji. Sorry, ale jak dla mnie jest to zbyt podobne do biadolenia wydawców na koszty druku :)
Fajnie jest tak narzekać dla samego narzekania. :P
PS. Wrzuciłem na Wykop: https://www.wykop.pl/link/5494991/potrzebujesz-skanu-starszej-ksiazki-biblioteka-narodowa-go-zrobi/ – jak ktoś ma konto, poproszę o plusik. :)
„Dawno temu na studiach pisałem pracę o ministrze skarbu z II RP, Gabrielu Czechowiczu…”
„Był jedynym polskim politykiem okresu międzywojennego postawionym przed Trybunałem Stanu”
Dawno temu, czyli proby wizjonerskie o mozliwej, stosunkowo bliskiej przyszlosci politycznej w naszej pieknej krainie :D
Jakby co, znalazłem sposób na darmowy OCR :-) Google umożliwia otwieranie jako dokument plików (zdjęć) przesłanych na dysk Google. Klikamy prawym przyciskiem myszy i wybieramy „Otwórz jako dokument Google”.
I teraz najlepsze: można to oskryptowac i zautomatyzować. Problem tylko w tym, że jeden skrypt Google ma limit czasu wykonywania 6 minut, co w praktyce pozwala na przerobienie kilkunastu stron na raz. Potem trzeba te strony połączyć, ale jest do tego gotowy skrypt.
Jakość jest dobra, ale i tak trzeba to potem trochę poprawiać.
Panie, a po co takie cuda na kiju? Pod linuksem masz darmowe OCR dzialajace w shellu z wbudowanymi slownikami w stu jezykach, ostatnio parsowalem wiele PDF-ow i dzialaly bezblednie.
Skrypt do parsowania setek plikow zawieral 4 linijki.
Probowalem sie takimi narzedziami bawic okolo 15 lat temu i byl „dramat” w porownaniu do Finereadera. W przypadku polskich ksiazek nie bylo zadnych szans. Jesli dziala teraz dobrze, to napisz tutaj jakies sciezki, slowa kluczowe do szukania tematu lub „wklej” dzialajacy skrypt.
Efekty są prawdopodobnie takie jak w przypadku Internet Archive, gdzie wersja tekstowa skanów jest i nawet można EPUB pobrać, ale często się to do niczego nie nadaje. Na swoje potrzeby mam Finereadera sprzed jakoś 10 lat i bym też radził poszukać nawet jakiejś używki jeśli ktoś ma potrzeby obrabiania skanów.
Panie Robercie,
najpierw wyprobowac, pozniej komentowac!
Wlasnie doczytalem, ze program, ktorego uzywalem, jest aktualnie rozwijany przez googla. Wiec bardzo mozliwe, ze kladzie Finereadera na lopatki i w dodatku jedna reka.
Takoz mam starego jak swiat Finereadera (choc mlodszego niz Photosop z 1996 :) i radzi sobie genialnie. Nie „idealne” ale wystarczajaco dobrze bym sam sobie zrobil e-wersje paru ulubionych starych ksiazek, ktore nie maja e-wydan. Oczywiscie trzeba bylo ze 2-3 godziny posiedziec i poczysic tekst (ale 80% odwalały za mnie proste skrypty w Wordzie, czy opcja „znajdź i zamień) ale – bylo warto.
Teraz zauwazylem, ze we wspomnianym „Internet Archive” przy publikacjach „zawsze dostepnych” sa opisy typu „Ocr: ABBYY FineReader 9.0”, wiec pewnie oni to robia automatycznie wlasnie tym swietnym programem, a w ciezkich przypadkach to bez kontroli ludzi nie jest perfekcyjne. Ale to najlepszy wybor. Lepiej miec wszystko bez perfekcji niz 5% tego prawie perfekcyjnie.
Ja uzywalem „tesseract”, jak widac caly czas aktywnie rozwijany. Mialem PDF ze skanami (jezyk nie byl polski, ale tez nie angielski) i program zadzialal w 99% bezblednie. Nie trzeba recznie kompilowac, Ubuntu ma go w repozytorium i pewnie inne dystrybucje tez.
https://github.com/tesseract-ocr/tesseract
Najprostsze uruchomienie: tesseract file.jpg file.txt
O, panie, zaoszczędziłeś mi dwa dni klikania :-) Dzięki!
Kiedyś tesseract był nieprzydatny, bo nie obsługiwał polskiego. Zdaje się że Google go wykupiło i zastosowali te sieci neuronowe, co je mieli zastosować, i wersja 4.0 to już jest coś, czego da się używać.
Nie interesowałem się OCR ostatnio, bo mam co czytać, ale właśnie niedawno z nadmiaru czasu siadłem do przerabiania Kopernika na ebooki, to mi lekko ułatwi sprawę.
Rowniez dziekuje :)
O, jaki konkretnie program masz na myśli? Znam fajne narzędzia, ale do konwertowania „prawdziwych” pdf, nie skanów, np. poppler.
Wspominam o tym, bo więcej ludzi ma smartfona z dostępem do dysku Google, niż linuksa.
Moje posty trafiaja w moderacje, jak Pan Robert zatwierdzi, to sie okaze :-)
Może podpisywanie się stałym nickiem i niezmienianie danych w komentarzu mogłoby pomóc.
Jak znam życie, na githubie są już do tego skrypty. :)
Skrypt oczywiście pożyczony, tyle że że stackoverflow ztcp. Skrypt do łączenia jest jakąś gotową appką używająca google API, w sumie nie wiem komu dałem dostęp do dysku ;-)
Czy mozesz tu wrzucic wspomniane skrypty lub odnosniki do nich, zeby w razie potrzeby nie tworzyc kola na nowo? :)
Użyłem tego skryptu (z komentarza Tanaike).
Do łączenia plików gdoc (OCR robi się na pojedynczych stronach) użyłem tego.
70 lat…rozumiem, że autor ma prawo do zysków, rodzina do praw, ale 70 lat po śmierci ? Kto niby ma z tego korzystać ? Na takiej zasadzie to przy tym samym prawie dalej byśmy byli w epoce kamienia, no może żelaza ;) Trzeba rozróżnić zysk ze sprzedaży od korzystania w ramach biblioteki, przecież to nie pójdzie jako skan na sprzedaż.
Ps Ten okres 70 lat to kolejne wydłużenie po niezłej działalności i mocnym lobbingu zainteresowanych, a kto po śmierci ma prawa dzieci, wnuki, prawnuki, wydawnictwa etc.
Zgadza się, było o tym mówione wiele razy jak omawiałem Dzień Domeny Publicznej. Takie prawo na całym świecie wylobbowały sobie koncerny, choćby Disney. Najbardziej na tym cierpią mniej znane utwory, których za kasę nikt nie będzie wznawiał.
„… a kto po śmierci ma prawa dzieci, wnuki, prawnuki…”
Akurat to jest madre, bo moze autor nie mial czasu zadbac o ich start i nalezy sie cos od niego, skoro dzieki temu osiagnal sukces. Zostawia ukochanym lub nienawidzonym bliskim z rodziny cos po sobie. Analogicznie do sytuacji, gdy biznesmen (zarowno ten od „malego” Polsatu jak i od „duzego” VW) nie ma czasu na zstepnych, ale zostaje im po nim firma.
Chociaz oczywiscie blokuje to szanse na literature, ktora w swoim czasie nie jest popularna, mimo swietnej jakosci, bo moze zostac zapomniana ze wzgledu na brak licencji.
Nie chcę bronić akurat 70 lat, czy innej konkretnej liczby, ale nie da się zaprzeczyć, że
1. Prawie każdy rodzic stara się zapewnić możliwie dobrą przyszłość potomkom: jeden zostawi skrzynię pieniędzy, drugi dom, trzeci firmę która zbudował, a jeden przynajmniej jakąś własność intelektualną, z której jeszcze przez ieś lat można coś wyciągnąć.
2. Nawet jak jako artysta sprzedajesz prawa tej złej korporacji, to mimo wszystko będzie ona skłonna zapłacić tym więcej im dłużej będzie je mogła potem potencjalnie doić.
Więc jakiś interes twórców też w tym jest.
70 lat po twojej śmierci statystycznie twoje wnuki są już martwe ;-)
Prosty model: żyjesz 75 lat (lekko powyżej średniej dla mężczyzny), masz dzieci w wieku 30 lat.
Załóżmy, że urodziłeś się w 1900 roku. W wieku 30 lat urodziło ci się pierwsze dziecko. Doczekałeś urodzenia wnuka, jego rodzice (w tym twoje dziecko) też mieli je w wieku 30 lat. Ty masz teraz 60, właśnie wydałeś pamiętniki.
Gdy umierasz w wieku 75, rok 1975, zaczyna bić kopyrajt-licznik, twoje dziecko ma 45 lat, wnuk 15.
W roku 2000 (licznik pokazuje 25) twoje dziecko ma 70 lat, twój wnuk 40, prawnuk 10.
W roku 2025 (licznik pokazuje 50) twoje dziecko miałoby 95 (ale od 20 lat nie żyje), twój wnuk ma 65, prawnuk 35, praprawnuk 5.
W roku 2045 (licznik pokazuje 70) twój wnuk miałby 85 lat (ale nie żyje), prawnuk 55 lat, praprawnuk 25. Od 10 lat z praw korzystają ludzie których na oczy nie widziałeś.
Statystyka nigdy nie broni najmadrzejszych, najglupszych, najsilniejszych czy najslabszych, a takie prawo ma tym ostatnim wlasnie pomoc, bo czasem oni maja wiekszy potencjal niz statystyczna wiekszosc spoleczenstwa :)
Mam male dzieci. Gdy umre dzisiaj, a moje dzieci beda mialy dzieci tak pozno jak ja, to 70 lat po mojej smierci moje wnuki beda mialy 20-30 lat :), a moze wciaz bedzie zyc moja kobieta z moimi dziecmi :D
Ale oczywiscie tak jak pisalismy to temat trudny i dlatego o nim wszyscy razem mowilismy, bo tylko prosci ludzie nie zauwazyliby komplikacji.
Mój skrypt bazujący na teeseract:
https://github.com/vvizzo/ocrtess
Szersze wyjaśnienie jak korzystać :
https://wqwtf.wordpress.com/2020/03/25/ocr-z-tesseract/
A frontend dla windowsa jest np. tutaj: https://sourceforge.net/projects/gimagereader/
W pełni się z Panami zgadzam może trzeba stworzyć czarną listę cyfrowych bibliotek, które udają że udostępniają wartościowe skany czasopism i książek. Na pierwsze miejsce nominuję Bibliotekę Cyfrową Uniwersytetu Wrocławskiego, gdzie udostępniono „Górnoślązaka” bez możliwości rozpoznawania tekstu. Pieniądze wyrzucone w błoto. https://bibliotekacyfrowa.pl/dlibra/publication/2365/edition/3984/content
Mysle, ze tu akurat nie ma sensu odrozniac kto jest na pierwszym niechlubnym miejscu :)
Mam zwyczajnie wrazenie, jakby u nas w kraju szczytem honoru bylo zablokowanie mozliwosci latwego uzycia czegokolwiek. Pamietam, ze wiele razy podczas roznych studiow mielismy za zadanie wykonanie analizy jakichs danych i glownym (oczywiscie absurdalnym) zajeciem bylo wklepanie tych danych z kartki do pliku tekstowego :)
Wciaz wielu ludzi kocha u nas zamordyzm i prace dla pracy, zamiast drogi po linii najmniejszego oporu, ktora polepsza miejsce w rankingu rozwoju danej spolecznosci.
Uproszczenie jezyka angielskiego dalo powazny zysk krajom w ktorych jest uzywany, a u nas byloby to nie do pomyslenia, bo mamy inne rodzaje zabetonowania. Jest mniej zmiennie, ale wtedy znacznie mniej rozwojowo i bardziej niewolniczo oraz biedniej.