Do instytucji udostępniających e-booki, również w wersjach na czytniki dołączyło niedawno Narodowe Archiwum Cyfrowe. Na razie skromnie, ale będzie więcej.
Z sekcji „Wiedza i edukacja” na stronach NAC możemy ściągnąć dwa tytuły (cytuję oryginalne opisy).
- Anna Sobczak, Między tradycyjnym a wirtualnym archiwum. Narodziny cyfrowej tożsamości archiwów w Niemczech to publikacja przybliżająca czytelnikom zagadnienia związane ze współczesną archiwistyką cyfrową, takie jak: komputeryzacja, standaryzacja, digitalizacja, wirtualne archiwum. Została opracowana w oparciu o rozprawę doktorską Anny Sobczak, która zebrała potężny materiał faktograficzny dotyczący powstawania cyfrowych archiwów w Niemczech. Format pdf, epub, mobi.
- Warszawa Siemaszki. Fotografie z Narodowego Archiwum Cyfrowego to publikacja wydana zarówno w tradycyjnej, jak i elektronicznej formie. Jest to pierwszy monograficzny album Zbyszka Siemaszki, doskonałego fotografa, którego fotografie przechowywane są w NAC. Z uwagi na albumowy charakter – tylko pdf.
Warto dodać, że praca dr Sobczak została udostępniona na licencji Creative Commons, w wersji BY-NC 3.0 umożliwiającej dowolne dzielenie się i adaptację, pod warunkiem użycia niekomercyjnego.
Warto zwrócić na nią uwagę, bo pozwala nam na orientację, jakie problemy stoją przed twórcami cyfrowych archiwów. Przykładowo:
Największym problemem związanym z zabezpieczeniem cyfrowych danych jest kwestia starzenia się technologii oraz brak świadomości potrzeby ich konserwacji w okresie po zaprzestaniu korzystania z nich, a co dopiero w trakcie ich używania. Wciąż dość powszechne jest podejście do świata elektronicznego tak jak do analogowego – papier po zdeponowaniu w magazynie archiwalnym nadal nadaje się do odczytu mimo mijającego czasu i niedokonywania żadnych czynności w celu jego ochrony (oczywiście pod warunkiem, że nie minie okres jego żywotności, który – jak pokazuje doświadczenie – wynosi 100 i więcej lat). […]. Warto podkreślić, że backup nie rozwiązuje problemu starzenia się technologii
I dalej:
Duże problemy stanowi problem braku wspólnych cech formatów danej kategorii, na przykład dokumenty tekstowe generowane przez oprogramowanie dostępnych na rynku producentów posiadają różne funkcje i właściwości. To utrudnia migrację, gdyż w przypadku każdego formatu trzeba tworzyć osobne rozwiązania lub bardziej złożone, potrafiące konwertować wiele typów plików równocześnie. Kłopotliwa może być też potrzeba migrowania przez różne wersje danego formatu. Jeżeli w 1995 roku używano pliku danego formatu w wersji 1, a jest on w wersji 10, to należy przejść przez wszystkie dzielące obie wersje mutacje. To również może powodować zwiększanie strat informacji. Podobnie może być, jeśli jakiś format został zastąpiony przez inny. Żeby otrzymać plik MS Word 2003, mając dokument zapisany w WordPerfect 5.1, trzeba by najpierw zmienić go na MS Word 97, wyposażony w filtr WordPerfect, i dopiero na docelowy. Specjaliści od migracji spierają się w kwestii, czy można pomijać pośrednie formaty i wersje w przypadku, gdyż dostępne są narzędzia na to pozwalające. W powyżej przedstawionym przypadku między WordPerfect 5.1 a MS Word 97 możliwa byłaby zmiana na WordPerfect 6.1.
To samo może spotkać nas samych, tylko że na trochę mniejszą skalę – jak za 20 lat odczytamy nasze e-booki?
Dlatego właśnie warto kupować multiformat i warto, by księgarnie sprzedawały również PDF – wprawdzie formaty czytnikowe dzisiaj kwitną, a podstawą EPUB jest dobrze znany HTML, ale nie wiemy jak będzie z ich odczytem za 20 lat…
Czytaj dalej:
- [Nieaktualne] Dwie akcje z okazji WOŚP 2023: Legimi da 10 zł za przeczytaną książkę, a inkBOOK licytuje czytniki z autografami
- Cały człowiek – bezpłatna antologia fantastyczna z Grupy Wydawniczej Alpaka
- Wolne Lektury nie dostały stabilnego finansowania na ten rok i proszą o wsparcie
- Bezpłatne wydanie „Dziennika Gazety Prawnej” z okazji Światowego Forum Ekonomicznego w Davos
- Legimi rozdaje po jednej książce z trzech wydawnictw: ArtRage, Mando i Zielona Sowa
- Słownik języka polskiego dla PocketBooka – już do pobrania!
Akurat problem jest głównie z formatami binarnymi jak doc czy pdf. Epub jest spakowanym xmlem, tak samo jak nowoczesne formaty docx i odt. Jak będzie trzeba to i za sto lat da się to bez problemu wypakować, otworzyć jak zwykły plik tekstowy, usunąć znaczniki xml i otrzymamy czysty tekst, choć formatowanie przepadnie. Albo w oparciu o znaczniki xml przekonwertować do nowego formatu. Dlatego zresztą format doc poszedł w odstawkę, bez Worda tego nie otworzysz.
Oprócz formatu jest także sprawa nośnika. Za sto lat może nie być urządzenia czytającego DVD, BR, microSD, dyski SSD, sata, ani chmury Amazonu, MS, czy Googla, albo Dropboxa.
„Żeby otrzymać plik MS Word 2003, mając dokument zapisany w WordPerfect 5.1, trzeba by najpierw zmienić go na MS Word 97, wyposażony w filtr WordPerfect”
Hm , czy tu nie powinno być „należy użyć MS Word 97” czy ja czegoś nie rozumiem?
Dokładnie, tylko papierowa książka przyszłością. Poczytajcie Blackout, czytnik na prąd do d…., tylko papier, najdłuższa żywotność publikacji, póki co, nie wymyślili nic lepszego. (nie mówię tu o papierze i druku paragonów ;) )
Tak, literatura na papierze od tysiącleci ma się dobrze. Ale niekoniecznie sprawdza się jako najtrwalszy, niezawodny nośnik tekstu. Wspomnijcie na przykład Bibliotekę Aleksandryjską – wraz z jej zniszczeniem (niejednokrotnym, o ile pamiętam) zginęła bezpowrotnie większość literatury…
No nie wiem. Zdaje się, że papier z XIX zaczyna sie rozpadać.
Powiedziałabym, że gazetowe wydania z lat 70/80 XX w. bywają już w proszku.
Okładka z baterią słoneczną (np. http://www.solarmio.com/en/4712389290366.aspx ) i jedziemy.
A jak wgrać pliki?
To zależy jaki papier, papier wyrabiany z bawełnianych czy lnianych szmat jest rzeczywiście bardzo długowieczny.
Kwaśny papier drzewny popularny od połowy XIX wieku do końca XX wieku, już po paru latach zaczyna żółknąć, potem staje się łamliwy, a w końcu dosłownie się rozsypuje.
Chyba trzymany w superwilgotnych warunkach. Weź sobie w bibliotece jakiekolwiek czasopismo sprzed 60-70 lat (starszych pewnie nie udostępniają do czytelni) i zobacz czy papier zżółkł.
Mam w domu oprawiony rocznik „Wędrowca”z 1899 roku i cały się sypie. Wystarczy przejechać po kartce palcem a papier się ściera na proszek. Pewnie utracił za dużo wilgoci, ale kartki są prawie białe.
Akurat problem jest głównie z formatami binarnymi jak doc czy pdf. Epub jest spakowanym xmlem, …
PDF nie jest formatem binarnym. On także jest formatem tekstowym spakowanym podobnie jak EPub. Możesz go sobie rozpakować na przykład przy użyciu narzędzia pdftk.
PDF nie jest w żaden sposób „spakowany”. Jest to kod wynikowy interpretacji języka PostScript. Konwersja na format źródłowy jest możliwa, ale czy byłby on czytelny albo łatwo edytowalny to już inna rzecz. Osobna sprawa to grafika, która tak czy owak musi zostać zapisana w postaci nieczytelnej dla człowieka.
Bardzo się mylisz. PDF jest spakowany przy użyciu biblioteki zlib. Możesz sobie nawet ustawić stopień kompresji. Pakowana jest sekwecja instrukcji rysująceych każdego obiektu z osobna które są zwykłymi poleceniami tekstowymi. To nie jest żaden kod wynikowy. PostScript i PDF to trochę co innego. PDF tylko bazuje na Postscripcie.
I epub, i pdf, i większość formatów dokumentów to kontenery, które mogą zawierać wyłącznie dane tekstowe, ale w praktyce dane tekstowe nie są dostępne bezpośrednio (jak w xml, html czy rtf) bądź kontenery zawierają również dane binarne (fonty, grafikę bitmapową itp.) , więc nie można ich nazwać tekstowymi.
Od biedy za tekstowe można uznać kontenery, które są pojedynczym archiwum spakowanym z użyciem popularnego algorytmu czyli np. spakowany zipem docx, odt lub właśnie epub, ale nie pdf czy doc.
PDF też jest spakowany zipem, tylko nie cały plik na raz, a każdy zawarty w nim obiekt oddzielnie. Takim pojedyńczym obiektem jest na przykład pojedyńcza strona. Umozliwia to dowolne skakanie po dokumencie bez potrzeby przechowywania w pamięci rozkompresowanego całego pliku. Fakt że można w nim osadzać inne pliki jak fonty czy obrazy nie zmienia faktu, że on sam to tylko sekwencja tekstowych instrukcji graficznych.
@Lidejo i Usher:
Aby rozwiać wątplikości to jest podręcznik do pdftexa: http://mirrors.ctan.org/systems/pdftex/manual/pdftex-a.pdf. Nie chodzi mi o pdftexa, ale na początku manuala (rozdizał 2) jest któtki opis struktury PDF na przykładzie prostego pliku. To tylko niecałe dwie strony opisu. Pliku binarnego nie dałoby się tak omawiać wiersz po wierszu.
Fakt PDF nie jest prostym językiem i trzeba go tworzyć przy użyciu jakiegoś programu ale to nie zmienia faktu, że to format tekstowy.
Sorry, powyższy link nie działa. Ten jest poprawny: link
„nie wiemy jak będzie z ich odczytem za 20 lat…”
Wiemy.
Wiemy? To jak będzie z ich odczytem?
Aż prosi się o dość kolokwialną odpowiedź ;-)
Ale trzymając poziom bloga, odpowiem:
Kłopotliwie.
;-)